Unangenehm! Das KI-Sicherheitssystem von Meta konnte durch den „Weltraum“-Angriff leicht umgangen werden

Autor：Eve Cole Aktualisierungszeit：2024-12-14 18:32:01

Meta hat vor kurzem Prompt-Guard-86M veröffentlicht, ein maschinelles Lernmodell zur Abwehr von Prompt-Injection-Angriffen. Es stellte sich jedoch schnell heraus, dass das Modell selbst schwerwiegende Sicherheitslücken aufwies. Bei Hint-Injection-Angriffen geht es darum, durch sorgfältig gestaltete Eingaben große Sprachmodelle (LLMs) dazu zu veranlassen, Sicherheitsbeschränkungen zu verletzen oder unangemessenes Verhalten hervorzurufen. Prompt-Guard-86M soll diese schädlichen Eingabeaufforderungen herausfiltern. Forscher fanden jedoch heraus, dass die einfache Entfernung von Zeichenabständen und Satzzeichen den Abwehrmechanismus des Modells leicht umgehen und es unwirksam machen kann.

Vor kurzem hat Meta ein maschinelles Lernmodell namens Prompt-Guard-86M auf den Markt gebracht, das darauf ausgelegt ist, Prompt-Injection-Angriffe zu erkennen und darauf zu reagieren. Bei dieser Art von Angriff handelt es sich in der Regel um spezielle Eingaben, die dazu führen, dass sich ein großes Sprachmodell (LLM) unangemessen verhält oder Sicherheitsbeschränkungen umgeht. Überraschenderweise ist aber auch das neue System selbst der Gefahr eines Angriffs ausgesetzt.

Hinweis zur Bildquelle: Das Bild wird von KI generiert und vom Dienstanbieter Midjourney autorisiert

Prompt-Guard-86M wurde von Meta zusammen mit seinem Llama3.1-Generationsmodell gestartet, hauptsächlich um Entwicklern dabei zu helfen, Eingabeaufforderungen herauszufiltern, die Probleme verursachen könnten. Große Sprachmodelle verarbeiten typischerweise große Text- und Datenmengen, und wenn sie nicht aktiviert werden, können sie gefährliche oder sensible Informationen willkürlich wiederholen. Daher haben Entwickler „Leitplanken“ in das Modell eingebaut, um Eingaben und Ausgaben zu erfassen, die Schaden anrichten könnten.

Benutzer von KI scheinen es jedoch als Herausforderung zu betrachten, diese Leitplanken zu umgehen und Modelle mithilfe von Hint-Injection und Jailbreaking dazu zu bringen, ihre eigenen Sicherheitsanweisungen zu ignorieren. Kürzlich haben einige Forscher darauf hingewiesen, dass Metas Prompt-Guard-86M bei der Verarbeitung einiger spezieller Eingaben anfällig ist. Wenn Sie beispielsweise „Vorherige Anweisungen ignorieren“ mit einem Leerzeichen zwischen den Buchstaben eingeben, ignoriert Prompt-Guard-86M gehorsam die vorherigen Anweisungen.

Die Entdeckung wurde von einem Schwachstellenjäger namens Aman Priyanshu gemacht, der die Sicherheitslücke bei der Analyse von Metamodellen und Microsofts Benchmark-Modellen entdeckte. Priyanshu sagte, der Prozess der Feinabstimmung von Prompt-Guard-86M habe nur sehr geringe Auswirkungen auf einzelne englische Buchstaben gehabt, sodass er diesen Angriff entwickeln könne. Er teilte diese Erkenntnis auf GitHub mit und wies darauf hin, dass der Klassifikator seine Erkennungsfähigkeiten verlieren kann, wenn er einfach Zeichenabstände setzt und Satzzeichen entfernt.

Hyrum Anderson, Chief Technology Officer von Robust Intelligence, stimmte ebenfalls zu. Er wies darauf hin, dass die Angriffserfolgsquote dieser Methode nahezu 100 % liege. Obwohl Prompt-Guard nur ein Teil der Verteidigungslinie ist, hat die Aufdeckung dieser Schwachstelle bei Unternehmen, die KI einsetzen, tatsächlich Alarm geschlagen. Meta hat noch nicht geantwortet, aber Quellen sagen, dass sie aktiv nach einer Lösung suchen.

Höhepunkte:

Es wurde festgestellt, dass Metas Prompt-Guard-86M eine Sicherheitslücke aufweist und anfällig für Prompt-Injection-Angriffe ist.

Durch das Einfügen von Leerzeichen zwischen den Buchstaben kann das System dazu gebracht werden, Sicherheitsanweisungen zu ignorieren, mit einer Angriffserfolgsquote von nahezu 100 %.

⚠️ Dieser Vorfall erinnert Unternehmen daran, beim Einsatz von KI-Technologie vorsichtig zu sein und dass Sicherheitsaspekte dennoch berücksichtigt werden müssen.

Die Schwachstelle von Prompt-Guard-86M machte die enormen Herausforderungen deutlich, vor denen der Bereich der KI-Sicherheit steht, und unterstrich einmal mehr, dass der Sicherheit bei der Entwicklung und Bereitstellung von KI-Systemen Vorrang eingeräumt werden muss. Zukünftig werden leistungsfähigere und zuverlässigere Sicherheitsmechanismen der Schlüssel zur Entwicklung der KI-Technologie sein.