Anthropischer Sicherheitsschutz steht vor Herausforderungen, allgemeine Jailbreak -Tests von KI -Modellen zeigen Durchbrüche - KI -Artikel

Autor：Eve Cole Aktualisierungszeit：2025-02-14 08:48:01

In diesem Artikel werden die Testergebnisse des AI -Modells Claude 3.5 -Sicherheitsschutzsystems von Anthropic erörtert. Die Forscher testeten die Wirksamkeit ihres neuen Sicherheitsmechanismus, des Physique-Klassifikators, durch eine sechstägige offene Herausforderung. Die Teilnehmer versuchten, alle Sicherheitsschutzmaßnahmen von Claude 3.5 zu umgehen, und brachen schließlich erfolgreich alle acht Sicherheitsstufen durch, was eingehende Diskussionen über den KI-Sicherheitsschutz auslöste. Obwohl der Challenger erfolgreich einen Durchbruch erzielte, wurde keine gemeinsame "Jailbreak -Methode" entdeckt, was zeigt, dass es immer noch Herausforderungen beim KI -Sicherheitsschutz gibt, aber nicht völlig unzerbrechlich ist.

In nur sechs Tagen haben die Teilnehmer alle Sicherheitsschutzmaßnahmen im Modell Claude 3.5 (AI) der Anthropic Artificial Intelligence (AI) erfolgreich umgangen, ein Durchbruch, der neue Diskussionen auf den Bereich des KI -Sicherheitsschutzes bringt. Jan Leike, ein ehemaliges Mitglied des OpenAI -Alignment -Teams und jetzt für Anthropic, kündigte auf der X -Plattform an, dass ein Teilnehmer alle acht Sicherheitsniveaus erfolgreich gebrochen hat. Diese kollektive Anstrengung umfasste ungefähr 3.700 Tests und 300.000 Nachrichten von Teilnehmern.

Trotz des erfolgreichen Durchbruchs des Herausforderers betonte Leike, dass niemand eine gemeinsame "Jailbreak -Methode" vorschlagen konnte, um alle Sicherheitsherausforderungen gleichzeitig zu lösen. Dies bedeutet, dass es trotz des Durchbruchs immer noch keine Möglichkeit gibt, einen universellen Weg zu finden, um alle Sicherheitsschutz zu umgehen.

Claude2，Anthropic，人工智能，聊天机器人克劳德

Herausforderungen und Verbesserungen physischer Klassifizierer

Wenn KI -Technologien immer mächtiger werden, ist es zu einem immer wichtigeren Problem geworden, sie vor Manipulation und Missbrauch zu schützen, insbesondere wenn es um schädliche Produktion geht. Anthropic hat eine neue Sicherheitsmethode entwickelt - einen Verfassungsklassifizierer, insbesondere, um das Auftreten allgemeiner Gefängnisbrüche zu verhindern. Diese Methode verwendet voreingestellte Regeln, um festzustellen, ob der Eingabinhalt möglich ist, um das Modell zu manipulieren, wodurch gefährliche Antworten verhindert werden.

Um die Wirksamkeit dieses Systems zu testen, rekrutierte anthropische 183 Teilnehmer über einen Zeitraum von zwei Monaten, um zu versuchen, den Sicherheitsschutz des Claude 3.5-Modells zu durchbrechen. Die Teilnehmer wurden gebeten, den Sicherheitsmechanismus zu umgehen, wodurch Claude zehn "Tabu -Fragen" beantwortet. Trotz eines Bonus von 15.000 US -Dollar und fast 3.000 Teststunden konnte niemand den gesamten Sicherheitsschutz umgehen.

Frühere Versionen des Verfassungsklassifizierers hatten einige Probleme, einschließlich der Fehlermarkierung von harmlosen Anfragen als gefährliche Anfragen und der Notwendigkeit einer Menge Rechenleistung. Bei späteren Verbesserungen wurden diese Probleme jedoch effektiv gelöst. Testdaten zeigen, dass 86% der Manipulationsversuche im ungeschützten Claude -Modell übergeben wurden, während die geschützte Version mehr als 95% der Manipulationsversuche verhinderte, obwohl das System immer noch eine hohe Rechenleistung erfordert.

Synthetisierte Schulungsdaten und zukünftige Sicherheitsherausforderungen

Das Sicherheitssystem basiert auf synthetischen Schulungsdaten, wobei vordefinierte Regeln die „Verfassung“ eines Modells erstellt, die feststellt, welche Eingaben zulässig sind und welche verboten sind. Der durch diese synthetische Beispiele trainierte Klassifikator kann verdächtige Eingaben effektiv identifizieren. Die Forscher erkennen jedoch an, dass dieses System nicht perfekt ist und nicht mit allen Formen von universellen Jailbreak -Angriffen fertig werden kann. Daher wird empfohlen, es in Kombination mit anderen Sicherheitsmaßnahmen zu verwenden.

Um die Überprüfung des Systems weiter zu stärken, veröffentlichte Anthropic zwischen dem 3. und 10. Februar 2025 eine öffentliche Demonstrationsversion, die Sicherheitsexperten einlädt, an der Herausforderung teilzunehmen, und die Ergebnisse werden Ihnen durch nachfolgende Aktualisierungen mitgeteilt.

Dieser Wettbewerb mit KI -Sicherheit zeigt die enormen Herausforderungen und Komplexität des KI -Modellschutzes. Mit der kontinuierlichen Weiterentwicklung der Technologie ist die Verbesserung der Funktionalität des Modells und der Gewährleistung der Sicherheit nach wie vor ein wichtiges Thema, das die KI -Industrie dringend lösen muss.

Kurz gesagt, die Ergebnisse dieser Sicherheitsherausforderung zeigen nicht nur die Mängel des KI -Sicherheitsschutzes, sondern zeigen auch Anthropics Bemühungen und Fortschritte bei der Verbesserung der KI -Sicherheit. In Zukunft muss die KI-Sicherheit immer noch kontinuierlich verbessert und verbessert werden, um den sich ständig weiterentwickelnden Herausforderungen zu bewältigen.