Große Sprachmodelle (LLMs) mit sehr langen Kontextfenstern entwickeln sich rasant und ihre Fähigkeit, Informationen zu verarbeiten, hat große Aufmerksamkeit erregt. Es gibt jedoch Herausforderungen bei der Beurteilung der Fähigkeit dieser Modelle, große Informationsmengen zu verstehen und zu nutzen. Forscher von Google DeepMind haben zu diesem Zweck den Michelangelo-Benchmark entwickelt, mit dem Ziel, die Argumentationsfähigkeiten von Long-Context-LLM eingehender zu bewerten und Hinweise für zukünftige Modellverbesserungen zu geben.
In letzter Zeit sind große Sprachmodelle (LLMs) mit sehr langen Kontextfenstern zu einem heißen Diskussionsthema geworden. Diese Modelle sind in der Lage, Hunderttausende oder sogar Millionen von Token in einer einzigen Eingabeaufforderung zu verarbeiten, was Entwicklern viele neue Möglichkeiten eröffnet. Doch wie gut können diese Long-Context-LLMs die empfangenen umfangreichen Informationen verstehen und nutzen? Um dieses Problem zu lösen, haben Forscher von Google DeepMind einen neuen Benchmark namens Michelangelo eingeführt, der die Push-Fähigkeiten für Long-Contexte bewerten soll. Die Ergebnisse zeigen, dass aktuelle, hochmoderne Modelle zwar einige Fortschritte bei der Extraktion von Informationen aus großen Mengen kontextueller Daten gemacht haben, sie jedoch immer noch Schwierigkeiten bei Aufgaben haben, die Argumentation und das Verständnis der Datenstruktur erfordern. Als LLMs mit langen Kontextfenstern aufkamen, wurde den Forschern klar, dass neue Benchmarks erforderlich waren, um die Fähigkeiten dieser Modelle zu bewerten. Bestehende Evaluationen konzentrieren sich meist auf Informationsbeschaffungsaufgaben, wie z. B. „Nadelsuche im Heuhaufen“, also die Suche nach spezifischen Informationen in einer Vielzahl von Kontexten. Ein einfacher Abruf ist jedoch nicht gleichbedeutend mit dem Verständnis des Modells für den Gesamtkontext. Um diese Probleme anzugehen, schlug Michelangelo eine neue Bewertungsmethode vor, indem er komplexe Aufgaben stellte, die von Modellen eine tiefere Argumentation und Synthese bei der Verarbeitung langer Texte erfordern. Das Bewertungsframework enthält beispielsweise mehrere Aufgaben im Zusammenhang mit Programmierung und natürlicher Sprache. Diese Aufgaben testen nicht nur die Gedächtnisfähigkeit des Modells, sondern konzentrieren sich auch auf die Tiefe des Verständnisses und der Verarbeitung von Informationen. In Michelangelos Bewertungsaufgabe muss das Modell drei grundlegende lange Dokumentsyntheseaufgaben lösen, nämlich „Potenzialliste“, „Mehrrunden-Koreferenzauflösung“ und verschiedene andere Anwendungsszenarien. Diese Aufgaben helfen nicht nur bei der Bewertung der Leistung eines Modells bei langen Dokumenten, sondern offenbaren auch seine Mängel bei der Schlussfolgerung und Synthese. Die erste ist die „Potenzialliste“, bei der das Modell eine lange Liste von Operationen auf einer Python-Liste verarbeiten und dabei irrelevante oder redundante Anweisungen herausfiltern muss, um den endgültigen Zustand der Liste zu bestimmen. Der zweite Punkt ist die „Multi-Turn-Referenzauflösung“, bei der das Modell die Gesprächsstruktur verstehen und Referenzprobleme in langen Gesprächen lösen muss. Das dritte Element lautet „Ich weiß nicht“. Bei der Beantwortung mehrerer Multiple-Choice-Fragen muss das Modell feststellen, ob die Antwort im Kontext enthalten ist, und in der Lage sein, genau auf „Ich weiß nicht“ zu antworten. Die Forscher verglichen Michelangelo mit zehn Top-LLMs, darunter verschiedene Versionen von Gemini, GPT-4 und Claude, und testeten das Modell im Kontext von bis zu 1 Million Token. Das Gemini-Modell schneidet bei MRCR am besten ab, das GPT-Modell schneidet bei Latent List gut ab und Claude3.5Sonnet erhält die höchste Punktzahl bei IDK.
Der Herausgeber von Downcodes kam zu dem Schluss: Das Aufkommen des Michelangelo-Benchmarks bietet eine neue Perspektive für die Bewertung von LLM mit ultralangem Kontext und weist auch auf die Mängel aktueller Modelle in Bezug auf komplexe Argumentationsfunktionen hin. Um komplexere Aufgaben und Anwendungsszenarien besser bewältigen zu können, müssen künftig leistungsfähigere LLM-Lösungen Durchbrüche bei den Argumentationsfähigkeiten erzielen. Wir freuen uns auf die zukünftige Forschung, die uns weitere Überraschungen bringen wird!