Anthropic Start "Body Constitution Classificer": Blockiert erfolgreich 95% der Versuche der Modelle, Jailbreak - AI -Artikel

Autor：Eve Cole Aktualisierungszeit：2025-02-16 07:48:01

Der neueste "Body Classifier" von Anthropic hat neue Durchbrüche zum Sicherheitsschutz von KI gebracht. Diese Technologie soll den Angriffen "Universal Jailbreak" effektiv widerstehen und verhindern, dass KI -Modelle schädliche Inhalte erzeugen. Durch groß angelegte Tests konnten 183 Teilnehmer den Sicherheitsschutz des Systems unter dem Anreiz hoher Boni und ausreichender Zeit nicht vollständig umgehen, was die starken Verteidigungsfähigkeiten des "physischen Klassifizierers" vollständig demonstrierte. Dieser Artikel wird eine eingehende Diskussion über den Arbeitsprinzip, den Verbesserungsprozess und die zukünftige Entwicklungsrichtung des Klassifikators "Physical Constitution" durchführen.

Das künstliche Intelligenzunternehmen Anthropic kündigte kürzlich die Entwicklung einer neuen Sicherheitsmethode mit dem Namen "Body Constitution Classificer" an, die darauf abzielt, Sprachmodelle vor böswilliger Manipulation zu schützen. Die Technologie richtet sich ausdrücklich auf „Universal Jailbreak“ - eine Möglichkeit für Eingaben, die versucht, alle Sicherheitsmaßnahmen systematisch zu umgehen, um zu verhindern, dass KI -Modelle schädliche Inhalte erzeugen.

Um die Wirksamkeit dieser Technologie zu überprüfen, führte Anthropic einen großflächigen Test durch. Das Unternehmen rekrutierte 183 Teilnehmer, um innerhalb von zwei Monaten zu versuchen, sein Verteidigungssystem zu durchbrechen. Die Teilnehmer wurden gebeten, das KI -Modell Claude 3.5 zu erhalten, um zehn verbotene Fragen zu beantworten, indem sie bestimmte Fragen eingeben. Obwohl keine Teilnehmer einen Bonus von bis zu 15.000 US -Dollar und etwa 3.000 Testzeitstunden bot, konnten sie die Sicherheitsmaßnahmen von Anthropic vollständig umgehen.

Claude2，Anthropic，人工智能，聊天机器人克劳德

Vor Herausforderungen voranschreiten

Anthropics frühe Version des "Body Constitution -Klassifizierers" hatte zwei Hauptprobleme: Eine war, zu viele harmlose Anfragen als gefährliche Anfragen falsch eingeschätzt zu haben, und das andere bestand darin, eine große Menge an Rechenressourcen zu verlangen. Nach der Verbesserung reduziert der neue Klassifizierer die Fehleinschätzung erheblich und optimiert die Recheneffizienz. Automatische Tests zeigen jedoch, dass das verbesserte System zwar mehr als 95% der Jailbreak -Versuche erfolgreich blockiert hat, aber zusätzlich 23,7% der Rechenleistung erforderlich sind. Im Gegensatz dazu ermöglicht das ungeschützte Claude -Modell 86% der Jailbreak -Versuche zu verabschieden.

Training basierend auf synthetischen Daten

Der Kern des „Verfassungsklassifikators“ besteht darin, vordefinierte Regeln (als „Verfassung“ bezeichnet) zu verwenden, um zwischen zulässig und verboten zu unterscheiden. Das System trainiert den Klassifizierer, um verdächtige Eingaben zu identifizieren, indem synthetische Trainingsbeispiele in mehreren Sprachen und Stilen generiert werden. Dieser Ansatz verbessert nicht nur die Genauigkeit des Systems, sondern verbessert auch seine Fähigkeit, mit verschiedenen Angriffen umzugehen.

Trotz erheblicher Fortschritte erkennen anthropische Forscher an, dass das System nicht perfekt ist. Es kann möglicherweise nicht in der Lage sein, alle Arten von universellen Jailbreak -Angriffen zu bewältigen, und in Zukunft können neue Angriffsmethoden entstehen. Daher empfiehlt Anthropic die Verwendung des „Verfassungsklassifizierers“ in Verbindung mit anderen Sicherheitsmaßnahmen, um einen umfassenderen Schutz zu bieten.

Öffentliche Tests und Zukunftsaussichten

Um die Stärke des Systems weiter zu testen, plant Anthropic, zwischen dem 3. und 10. Februar 2025 eine öffentliche Demoversion zu veröffentlichen, und lädt Sicherheitsexperten ein, es zu knacken. Die Testergebnisse werden in nachfolgenden Aktualisierungen bekannt gegeben. Dieser Schritt zeigt nicht nur Anthropics Engagement für technologische Transparenz, sondern liefert auch wertvolle Daten für die Forschung im Bereich der KI -Sicherheit.

Der "Body Classifier" von Anthropic ist ein wichtiger Fortschritt beim Sicherheitsschutz von KI -Modellen. Mit der raschen Entwicklung der KI -Technologie ist die effektive Verhinderung des Missbrauchs von Modellen zum Schwerpunkt der Aufmerksamkeit der Branche geworden. Die Innovationen von Anthropic bieten neue Lösungen für diese Herausforderung und weisen gleichzeitig die Richtung für zukünftige KI -Sicherheitsforschung hin.

Der "Body Classifier" von Anthropic setzt einen neuen Benchmark für den Bereich der KI -Sicherheit, und seine Konzepte der öffentlichen Tests und der kontinuierlichen Verbesserung sind es wert, zu lernen. Mit der kontinuierlichen Entwicklung der Technologie und der Entwicklung von Sicherheitsbedrohungen werden in Zukunft die Verbesserung und Aufrüstung von "physischen Klassifizierern" eine entscheidende Rolle bei der Gewährleistung der KI -Sicherheit spielen.