Quelle: MIT News
Obwohl die Fähigkeiten großer Sprachmodelle beeindruckend sind, sind sie noch lange nicht perfekt. Diese KI-Modelle können manchmal „halluzinieren“ und als Reaktion auf Anfragen falsche oder unbegründete Informationen generieren.
Aufgrund dieses illusorischen Problems müssen Modellantworten häufig von menschlichen Prüfern überprüft werden, insbesondere in Umgebungen mit hohem Risiko wie dem Gesundheitswesen oder dem Finanzwesen. Der Validierungsprozess erfordert jedoch häufig das Lesen langer Dokumente, auf die das Modell verweist, eine mühsame und fehleranfällige Aufgabe, die einige Benutzer möglicherweise davon abhält, generative KI-Modelle zu verwenden.
Um menschliche Prüfer zu unterstützen, haben MIT-Forscher ein benutzerfreundliches System entwickelt, das es Menschen ermöglicht, die Antworten großer Sprachmodelle schneller zu überprüfen. Mit dem Tool namens SymGen kann LLM Antworten mit Referenzen generieren, die direkt auf bestimmte Stellen im Quelldokument verweisen, beispielsweise auf eine Zelle in einer Datenbank.
Benutzer können mit der Maus über hervorgehobene Teile von Textantworten fahren, um die Daten anzuzeigen, die das Modell zum Generieren bestimmter Wörter oder Phrasen verwendet hat. Unterdessen enthalten die nicht hervorgehobenen Teile Phrasen, die bei der Inspektion und Verifizierung besondere Aufmerksamkeit erfordern.
„Wir geben den Menschen die Möglichkeit, sich gezielt auf die Teile des Textes zu konzentrieren, denen sie mehr Aufmerksamkeit schenken müssen. Letztendlich erhöht SymGen das Vertrauen der Menschen in die Reaktion des Modells, da sie die Informationen leicht überprüfen können, um sicherzustellen, dass sie zuverlässig sind.“ & Informatik sagte die Doktorandin Shannon Shen, Co-Erstautorin des SymGen-Artikels.
Durch Benutzerrecherchen stellten Shen und seine Mitarbeiter fest, dass die Verifizierungszeit mit SymGen im Vergleich zum manuellen Prozess um etwa 20 % verkürzt werden konnte. Durch die schnellere und einfachere Validierung der Modellausgabe hilft SymGen dabei, Fehler in LLMs zu identifizieren, die in einer Vielzahl realer Anwendungen verwendet werden, von der Erstellung klinischer Aufzeichnungen bis hin zur Zusammenfassung von Finanzmarktberichten.
Zu Shens Co-Autoren des Artikels gehören auch der Co-Erstautor Lucas Torroba Hennigen, ein EECS-Doktorand, Aniruddha „Ani“ Nrusimha, und der leitende Autor David Sontag, ein EECS-Professor und Mitglied der MIT Jameel Clinic, Informatik mit dem Leiter der Clinical Machine Learning Group des Artificial Intelligence Laboratory (CSAIL); und Assistenzprofessor Yoon Kim, ein Mitglied von CSAIL. Die Forschung wurde kürzlich auf einer Sprachmodellierungskonferenz vorgestellt.
Symbolreferenz
Zur Unterstützung der Verifizierung sind viele LLMs so konzipiert, dass sie Verweise auf externe Dokumente generieren und sprachbasierte Antworten zur Überprüfung durch den Benutzer bereitstellen. Diese Verifizierungssysteme seien jedoch oft ein nachträglicher Einfall und berücksichtigten nicht den Aufwand, der von den Menschen für die Durchsicht einer großen Anzahl von Zitaten erforderlich sei, sagte Shen.
„Der Zweck der generativen KI besteht darin, die Zeit zu verkürzen, die Benutzer für die Erledigung einer Aufgabe benötigen. Wenn Sie Stunden damit verbringen müssen, diese Dokumente zu lesen, um zu überprüfen, ob die Behauptungen des Modells angemessen sind, werden die generierten Inhalte in realen Anwendungen weniger hilfreich sein. „sagte Shen.
Die Forscher gingen diese Frage aus der Perspektive der Person an, die die Validierungsarbeit durchführen würde.
SymGen-Benutzer stellen LLM zunächst Daten zur Verfügung, die als Referenz verwendet werden können, beispielsweise eine Tabelle mit Statistiken zu Basketballspielen. Anschließend führen die Forscher einen Zwischenschritt durch, ohne das Modell sofort aufzufordern, eine Aufgabe zu erledigen, beispielsweise das Generieren einer Übereinstimmungszusammenfassung aus diesen Daten. Sie veranlassen das Modell, Antworten in symbolischer Form zu generieren.
Bei dieser Eingabeaufforderung muss das Modell jedes Mal, wenn es in einer Antwort auf ein Wort verweisen möchte, die spezifische Zelle in der Datentabelle ausschreiben, die diese Informationen enthält. Wenn das Modell beispielsweise in einer Antwort auf den Ausdruck „Portland Trail Blazers“ verweisen möchte, ersetzt es diesen Text durch die Namen der Zellen in der Datentabelle, die diese Wörter enthalten.
„Da wir diesen Zwischenschritt haben, bei dem der Text in einem symbolischen Format präsentiert wird, können wir eine sehr feinkörnige Referenzierung erreichen. Wir können klar angeben, welchem Teil der Daten jedes Textstück in der Ausgabe entspricht“, sagt Torroba Hennigen.
SymGen verwendet dann regelbasierte Tools, um jede Referenz zu analysieren und den entsprechenden Text aus der Datentabelle in die Antwort des Modells zu kopieren.
„Auf diese Weise wissen wir, dass es wörtlich kopiert wurde, sodass wir sicherstellen können, dass die Teile des Textes, die den tatsächlichen Datenvariablen entsprechen, keine Fehler enthalten“, fügte Shen hinzu.
Vereinfachen Sie die Überprüfung
Aufgrund der Art und Weise, wie das Modell trainiert wird, ist es in der Lage, symbolische Antworten zu generieren. Große Sprachmodelle akzeptieren große Datenmengen aus dem Internet, von denen einige im „Platzhalterformat“ aufgezeichnet werden, wobei Codes die tatsächlichen Werte ersetzen.
SymGen verwendet eine ähnliche Struktur, wenn es das Modell auffordert, symbolische Antworten zu generieren.
„Wir haben die Eingabeaufforderungen so gestaltet, dass sie die Möglichkeiten von LLM freisetzen“, fügte Shen hinzu.
In Benutzerstudien gaben die meisten Teilnehmer an, dass SymGen die Überprüfung von LLM-generiertem Text erleichtert. Sie verifizierten Modellantworten etwa 20 % schneller als mit Standardmethoden.
Die Wirksamkeit von SymGen wird jedoch durch die Qualität der Quelldaten begrenzt. Das LLM verweist möglicherweise auf die falschen Variablen und der menschliche Prüfer ist sich dessen möglicherweise nicht bewusst.
Darüber hinaus müssen Benutzer Quelldaten in einem strukturierten Format (z. B. einer Tabelle) zur Eingabe in SymGen bereitstellen. Derzeit arbeitet das System nur mit tabellarischen Daten.
Zukünftig verbessern Forscher die Fähigkeiten von SymGen, beliebige Texte und andere Datenformen zu verarbeiten. Mit dieser Funktion kann es dabei helfen, bestimmte Teile von KI-generierten Zusammenfassungen von Rechtsdokumenten zu validieren. Sie planen außerdem, SymGen mit Ärzten zu testen, um zu untersuchen, wie es Fehler in KI-generierten klinischen Zusammenfassungen erkennt.
Diese Arbeit wurde teilweise von LiBERTy Mutual und der MIT Intelligent Discovery Initiative finanziert.