In jüngster Zeit hat sich die Leistungsbewertung multimodaler großer Sprachmodelle (MLLM) zu einem Forschungsschwerpunkt im Bereich der künstlichen Intelligenz entwickelt. Der gemeinsam von der University of Maryland und North Carolina Chapel Hill ins Leben gerufene Mementos-Benchmark bietet einen neuen Standard zur Bewertung der Fähigkeit von MLLM bei der Verarbeitung von Bildsequenzen. Dieser Test umfasst Bildsequenzen aus verschiedenen Szenen wie der realen Welt, Robotern und Animationen und soll die Argumentationsfähigkeiten von MLLM umfassend untersuchen. Die Veröffentlichung der Testergebnisse liefert wertvolle Daten für unser Verständnis der Vorteile und Grenzen von MLLM.
Kürzlich haben die University of Maryland und North Carolina-Chapel Hill zusammengearbeitet, um Mementos zu veröffentlichen, einen Bildsequenz-Benchmark, der speziell für multimodale große Sprachmodelle entwickelt wurde. Er soll die Argumentationsfähigkeiten dieser Modelle für die reale Welt, Roboter und Animationsbildsequenzen. Die Testergebnisse sind jedoch schockierend: MLLMs wie GPT-4V und Gemini erreichen eine Genauigkeit von weniger als 20 % im Comic-Datensatz. Dies zeigt eine klare Unzulänglichkeit dieser Modelle im Umgang mit Illusionen, Objekten und Verhaltensverständnis in Bildsequenzen.Die Benchmark-Testergebnisse von Mementos zeigen, dass das aktuelle Mainstream-MLLM immer noch erhebliche Mängel bei der Verarbeitung komplexer Bildsequenzen, insbesondere Animationsbildsequenzen, aufweist. Dies stellt eine wichtige Referenz für die zukünftige Forschungsrichtung von MLLM dar und erinnert uns auch daran, dass wir auf die Zuverlässigkeit von MLLM in verschiedenen Anwendungsszenarien achten müssen. Zukünftige Forschung muss sich darauf konzentrieren, wie die Fähigkeit von MLLM, Bildsequenzen zu verstehen, verbessert, Halluzinationen reduziert und seine Generalisierungsfähigkeit auf verschiedene Arten von Bildsequenzen verbessert werden kann.