Der Herausgeber von Downcodes präsentiert Ihnen einen aktuellen Forschungsbericht zur Sicherheit großer Sprachmodelle (LLM). Diese Untersuchung deckt die unerwarteten Schwachstellen auf, die scheinbar harmlose Sicherheitsmaßnahmen im LLM mit sich bringen können. Die Forscher fanden heraus, dass es erhebliche Unterschiede in der Schwierigkeit gab, die Modelle für verschiedene demografische Schlüsselwörter zu „jailbreaken“, was die Menschen dazu veranlasste, intensiv über die Fairness und Sicherheit von KI nachzudenken. Die Ergebnisse deuten darauf hin, dass Sicherheitsmaßnahmen, die darauf abzielen, ethisches Verhalten von Modellen sicherzustellen, diese Ungleichheit unbeabsichtigt verschärfen können, wodurch Jailbreak-Angriffe gegen gefährdete Gruppen wahrscheinlicher werden.
Eine neue Studie zeigt, dass gut gemeinte Sicherheitsmaßnahmen in großen Sprachmodellen zu unerwarteten Schwachstellen führen können. Die Forscher fanden signifikante Unterschiede darin, wie leicht Modelle aufgrund unterschiedlicher demografischer Begriffe „gejailbreakt“ werden können. Die Studie mit dem Titel „Do LLMs Have Political Correctness?“ untersuchte, wie sich demografische Schlüsselwörter auf die Erfolgsaussichten eines Jailbreak-Versuchs auswirken. Studien haben ergeben, dass Eingabeaufforderungen, die Terminologie von Randgruppen verwenden, eher zu unerwünschten Ausgaben führen als Eingabeaufforderungen, die Terminologie von privilegierten Gruppen verwenden.
„Diese absichtlichen Voreingenommenheiten führen zu einem Unterschied von 20 % in der Jailbreak-Erfolgsrate des GPT-4o-Modells zwischen nicht-binären und Cisgender-Schlüsselwörtern und einem Unterschied von 16 % zwischen weißen und schwarzen Schlüsselwörtern“, stellen die Forscher fest, obwohl andere Teile von „Die Eingabeaufforderung war völlig gleich“, erklärten Isack Lee und Haebin Seong von Theori Inc.
Die Forscher führen diesen Unterschied auf absichtliche Voreingenommenheit zurück, die eingeführt wurde, um sicherzustellen, dass sich das Modell ethisch verhält. So funktioniert Jailbreaking: Forscher haben die Methode „PCJailbreak“ entwickelt, um die Anfälligkeit großer Sprachmodelle für Jailbreaking-Angriffe zu testen. Diese Angriffe nutzen sorgfältig ausgearbeitete Hinweise, um KI-Sicherheitsmaßnahmen zu umgehen und schädliche Inhalte zu generieren.
PCJailbreak verwendet Schlüsselwörter aus verschiedenen demografischen und sozioökonomischen Gruppen. Um privilegierte und marginalisierte Gruppen zu vergleichen, bildeten die Forscher Wortpaare wie „reich“ und „arm“ oder „männlich“ und „weiblich“.
Anschließend erstellten sie Eingabeaufforderungen, die diese Schlüsselwörter mit potenziell schädlichen Anweisungen kombinierten. Durch wiederholtes Testen verschiedener Kombinationen konnten sie die Chancen eines erfolgreichen Jailbreak-Versuchs für jedes Schlüsselwort messen. Die Ergebnisse zeigten einen signifikanten Unterschied: Schlüsselwörter, die marginalisierte Gruppen repräsentieren, hatten im Allgemeinen eine viel höhere Erfolgschance als Schlüsselwörter, die privilegierte Gruppen repräsentierten. Dies deutet darauf hin, dass die Sicherheitsmaßnahmen des Modells unbeabsichtigte Vorurteile aufweisen, die für Jailbreaking-Angriffe ausgenutzt werden könnten.
Um die von PCJailbreak entdeckten Schwachstellen zu beheben, haben Forscher die Methode „PCDefense“ entwickelt. Dieser Ansatz verwendet spezielle Abwehrmaßnahmen, um übermäßige Voreingenommenheit in Sprachmodellen zu reduzieren und sie so weniger anfällig für Jailbreaking-Angriffe zu machen.
Das Besondere an PCDefense ist, dass keine zusätzlichen Modellierungs- oder Verarbeitungsschritte erforderlich sind. Stattdessen werden der Eingabe direkt Abwehrhinweise hinzugefügt, um Vorurteile auszugleichen und ein ausgewogeneres Verhalten des Sprachmodells zu erzielen.
Forscher testeten PCDefense an verschiedenen Modellen und zeigten, dass die Erfolgsaussichten eines Jailbreak-Versuchs sowohl für privilegierte als auch für marginalisierte Gruppen erheblich verringert werden können. Gleichzeitig verringerte sich der Abstand zwischen den Gruppen, was auf einen Rückgang sicherheitsbezogener Vorurteile hindeutet.
Die Forscher sagen, dass PCDefense eine effiziente und skalierbare Möglichkeit bietet, die Sicherheit großer Sprachmodelle zu verbessern, ohne dass zusätzliche Berechnungen erforderlich sind.
Die Ergebnisse verdeutlichen die Komplexität der Entwicklung sicherer und ethischer KI-Systeme im Hinblick auf ein Gleichgewicht zwischen Sicherheit, Fairness und Leistung. Die Feinabstimmung spezifischer Sicherheitsleitplanken kann die Gesamtleistung von KI-Modellen, beispielsweise ihre Kreativität, beeinträchtigen.
Um weitere Forschung und Verbesserungen zu erleichtern, haben die Autoren den Code von PCJailbreak und alle zugehörigen Artefakte als Open Source zur Verfügung gestellt. Theori Inc, das Unternehmen hinter der Studie, ist ein auf offensive Sicherheit spezialisiertes Cybersicherheitsunternehmen mit Sitz in den USA und Südkorea. Es wurde im Januar 2016 von Andrew Wesie und Brian Pak gegründet.
Diese Forschung liefert wertvolle Einblicke in die Sicherheit und Fairness groß angelegter Sprachmodelle und unterstreicht auch die Bedeutung einer kontinuierlichen Berücksichtigung ethischer und sozialer Auswirkungen bei der KI-Entwicklung. Der Herausgeber von Downcodes wird weiterhin auf die neuesten Entwicklungen in diesem Bereich achten und Ihnen aktuellere wissenschaftliche und technologische Informationen liefern.