Das KI-Sicherheitsteam von Microsoft führte einen zweijährigen Sicherheitstest für mehr als 100 generative KI-Produkte durch, um Schwachstellen und ethische Risiken zu identifizieren. Die Testergebnisse stellten einige traditionelle Vorstellungen über die KI-Sicherheit auf den Kopf und betonten die unersetzliche Rolle menschlicher Expertise im Bereich der KI-Sicherheit. Tests haben ergeben, dass die effektivsten Angriffe nicht immer technisch aufwändig sind, sondern eher einfache „Quick-Engineering“-Methoden, etwa das Verstecken bösartiger Anweisungen in Bildtexten, um Sicherheitsmechanismen zu umgehen. Dies zeigt, dass die KI-Sicherheit sowohl technische Mittel als auch humanistische Überlegungen berücksichtigen muss.
Seit 2021 hat das KI-Sicherheitsteam von Microsoft mehr als 100 generative KI-Produkte getestet, um nach Schwachstellen und ethischen Problemen zu suchen. Ihre Ergebnisse stellen einige gängige Annahmen zur KI-Sicherheit in Frage und unterstreichen die anhaltende Bedeutung menschlichen Fachwissens.
Es stellt sich heraus, dass die effektivsten Angriffe nicht immer die ausgefeiltesten sind. „Echte Hacker berechnen keine Gradienten, sondern nutzen Rapid Engineering“, heißt es in einer im Microsoft-Bericht zitierten Studie, in der die KI-Sicherheitsforschung mit der Praxis in der Praxis verglichen wird. In einem Test umging das Team erfolgreich die Sicherheitsfunktionen eines Bildgenerators, indem es einfach schädliche Anweisungen im Bildtext versteckte – keine komplizierten Berechnungen erforderlich.
Die menschliche Note ist immer noch wichtig
Während Microsoft PyRIT entwickelt hat, ein Open-Source-Tool, das Sicherheitstests automatisieren kann, betont das Team, dass menschliches Urteilsvermögen nicht ersetzt werden kann. Dies wurde besonders deutlich, als sie testeten, wie der Chatbot mit sensiblen Situationen umging, beispielsweise mit jemandem, der emotional belastet war. Die Bewertung dieser Szenarien erfordert sowohl psychologisches Fachwissen als auch ein tiefes Verständnis der möglichen Auswirkungen auf die psychische Gesundheit.
Bei der Untersuchung der KI-Voreingenommenheit stützte sich das Team auch auf menschliche Erkenntnisse. In einem Beispiel untersuchten sie die geschlechtsspezifische Voreingenommenheit in einem Bildgenerator, indem sie Bilder verschiedener Berufe erstellten (ohne Angabe des Geschlechts).
Es entstehen neue Sicherheitsherausforderungen
Die Integration künstlicher Intelligenz in alltägliche Anwendungen schafft neue Schwachstellen. In einem Test gelang es dem Team, das Sprachmodell erfolgreich zu manipulieren, um überzeugende Betrugsszenarien zu erstellen. In Kombination mit der Text-to-Speech-Technologie entsteht so ein System, das auf gefährlich realistische Weise mit Menschen interagieren kann.
Risiken beschränken sich nicht nur auf Probleme, die spezifisch für künstliche Intelligenz sind. Das Team entdeckte eine alte Sicherheitslücke (SSRF) in einem Videoverarbeitungstool mit künstlicher Intelligenz und zeigte, dass diese Systeme alten und neuen Sicherheitsherausforderungen gegenüberstehen.
Laufende Sicherheitsbedürfnisse
Die Studie konzentriert sich insbesondere auf „verantwortungsvolle KI“-Risiken, also Situationen, in denen KI-Systeme schädliche oder ethisch fragwürdige Inhalte generieren könnten. Diese Fragen sind besonders schwer zu beantworten, da sie häufig stark vom Kontext und der persönlichen Interpretation abhängen.
Das Microsoft-Team stellte fest, dass der unbeabsichtigte Kontakt normaler Benutzer mit problematischen Inhalten besorgniserregender war als absichtliche Angriffe, da dies darauf hindeutete, dass die Sicherheitsmaßnahmen bei normaler Nutzung nicht wie erwartet funktionierten.
Die Ergebnisse machen deutlich, dass KI-Sicherheit keine einmalige Lösung ist. Microsoft empfiehlt, weiterhin Schwachstellen zu finden und zu beheben und anschließend weitere Tests durchzuführen. Dies müsste durch Vorschriften und finanzielle Anreize gestützt werden, was erfolgreiche Angriffe teurer machen würde, schlugen sie vor.
Das Forschungsteam sagt, dass noch einige Schlüsselfragen beantwortet werden müssen: Wie können wir potenziell gefährliche KI-Fähigkeiten wie Überzeugung und Täuschung erkennen und kontrollieren? Wie können wir Sicherheitstests an verschiedene Sprachen und Kulturen anpassen? Teilen Sie dies auf standardisierte Weise? Ihre Methoden und Ergebnisse?
Insgesamt unterstreicht die Forschung von Microsoft die Bedeutung einer kontinuierlichen Verbesserung der KI-Sicherheitsmaßnahmen. Um die Herausforderungen der KI-Sicherheit effektiv zu bewältigen und die verantwortungsvolle Entwicklung der KI-Technologie zu fördern, ist eine Kombination aus technischen Mitteln und humanistischer Sorgfalt erforderlich.