Eine neue Studie der New York University zeigt die alarmierende Anfälligkeit von Large-Scale Language Models (LLMs) beim Datentraining. Untersuchungen zeigen, dass eine sehr kleine Menge falscher Informationen, selbst wenn sie nur 0,001 % der Trainingsdaten ausmacht, die Genauigkeit und Zuverlässigkeit von LLM ernsthaft beeinträchtigen und zu schwerwiegenden Fehlern führen kann. Diese Erkenntnis ist besonders wichtig im medizinischen Bereich, wo fehlerhafte medizinische Informationen die Patientensicherheit direkt gefährden können. Die Forschungsergebnisse wurden in der Fachzeitschrift „Nature Medicine“ veröffentlicht und werfen weit verbreitete Bedenken hinsichtlich der Sicherheit und Zuverlässigkeit von KI in medizinischen Anwendungen auf.
Kürzlich veröffentlichte ein Forschungsteam der New York University eine Studie, die die Anfälligkeit von Large-Scale-Language-Modellen (LLM) beim Datentraining aufdeckt. Sie fanden heraus, dass selbst eine kleine Menge falscher Informationen, die nur 0,001 % der Trainingsdaten ausmacht, erhebliche Fehler im gesamten Modell verursachen kann. Diese Erkenntnis ist besonders besorgniserregend für den medizinischen Bereich, wo Fehlinformationen direkte Auswirkungen auf die Patientensicherheit haben können.
Forscher wiesen in einem in der Fachzeitschrift „Nature Medicine“ veröffentlichten Artikel darauf hin, dass LLM zwar gut abschneidet, diese Modelle jedoch bei einigen Open-Source-Bewertungsbenchmarks möglicherweise schlechter abschneiden, wenn falsche Informationen in ihre Trainingsdaten eingefügt werden ist genauso gut. Dies bedeutet, dass wir bei regelmäßigen Tests möglicherweise keine potenziellen Risiken in diesen Modellen erkennen können.
Um dies zu testen, führte das Forschungsteam Experimente mit einem Trainingsdatensatz namens „The Pile“ durch, in den sie bewusst 150.000 KI-generierte medizinische Fake-Artikel einfügten. In nur 24 Stunden generierten sie den Inhalt, und die Studie zeigte, dass das Ersetzen von 0,001 % des Inhalts im Datensatz, sogar einer kleinen Million Trainingsmarkern, zu einem Anstieg schädlicher Inhalte um 4,8 % führte. Der Prozess ist äußerst kostengünstig und kostet nur 5 US-Dollar.
Dieser Data-Poisoning-Angriff erfordert keinen direkten Kontakt mit den Modellgewichten, sondern der Angreifer kann die Wirksamkeit des LLM einfach dadurch schwächen, dass er schädliche Informationen im Netzwerk veröffentlicht. Das Forschungsteam betont, dass dieser Befund erhebliche Risiken beim Einsatz von KI-Tools im medizinischen Bereich verdeutlicht. Gleichzeitig erwähnten sie auch, dass es relevante Fälle gibt, die zeigen, dass einige medizinische KI-Plattformen wie MyChart bei der automatischen Beantwortung von Patientenfragen häufig falsche Informationen generieren, was zu Problemen für die Patienten führt.
Daher fordern die Forscher KI-Entwickler und medizinische Anbieter auf, diese Schwachstelle bei der Entwicklung medizinischer LLMs klar zu erkennen. Sie empfehlen, dass LLM nicht für kritische Aufgaben wie Diagnose oder Behandlung eingesetzt werden sollte, bis die Sicherheit in der Zukunft gewährleistet werden kann.
Highlight:
Untersuchungen zeigen, dass nur 0,001 % der falschen Informationen ein groß angelegtes Sprachmodell (LLM) unwirksam machen können.
Im medizinischen Bereich kann die Verbreitung falscher Informationen die Patientensicherheit ernsthaft beeinträchtigen.
Die Forscher drängen darauf, dass LLM nicht für wichtige medizinische Aufgaben wie Diagnose oder Behandlung eingesetzt werden sollte, bis die Sicherheit gewährleistet ist.
Die Ergebnisse dieser Studie warnen uns davor, dass wir vor der Anwendung groß angelegter Sprachmodelle in kritischen Bereichen wie der medizinischen Versorgung die Forschung zur Datensicherheit und Modellzuverlässigkeit verstärken müssen, um deren Sicherheit und Wirksamkeit zu gewährleisten und potenzielle Risiken zu vermeiden.