Récemment, l’évaluation des performances des grands modèles multimodaux de langage (MLLM) est devenue un point chaud de la recherche dans le domaine de l’intelligence artificielle. Le benchmark Mementos, lancé en collaboration entre l'Université du Maryland et Chapel Hill de Caroline du Nord, fournit une nouvelle norme pour évaluer la capacité du MLLM à traiter des séquences d'images. Ce test couvre des séquences d'images provenant d'une variété de scènes telles que le monde réel, des robots et des animations, et est conçu pour examiner de manière approfondie les capacités de raisonnement de MLLM. La publication des résultats des tests fournit des données précieuses pour notre compréhension des avantages et des limites du MLLM.
Récemment, l'Université du Maryland et Chapel Hill de Caroline du Nord ont collaboré pour publier Mementos, une référence de séquence d'images conçue spécifiquement pour les grands modèles de langage multimodaux. Elle vise à tester de manière exhaustive les capacités de raisonnement de ces modèles pour les images du monde réel, de robot et d'animation. séquences. Cependant, les résultats des tests sont choquants, avec des MLLM tels que GPT-4V et Gemini atteignant une précision inférieure à 20 % sur l'ensemble de données de bandes dessinées. Cela révèle une nette insuffisance de ces modèles dans la gestion des illusions, des objets et de la compréhension comportementale dans les séquences d'images.Les résultats des tests de référence Mementos montrent que le MLLM grand public actuel présente encore des lacunes importantes dans le traitement des séquences d'images complexes, en particulier des séquences d'images d'animation. Cela constitue une référence importante pour l’orientation future de la recherche sur MLLM et nous rappelle également que nous devons être prudents quant à la fiabilité de MLLM dans divers scénarios d’application. Les recherches futures doivent se concentrer sur la manière d'améliorer la capacité du MLLM à comprendre les séquences d'images, à réduire les hallucinations et à améliorer sa capacité de généralisation sur différents types de séquences d'images.