Recientemente, la evaluación del desempeño de modelos multimodales de lenguaje grande (MLLM) se ha convertido en un punto de investigación en el campo de la inteligencia artificial. El punto de referencia Mementos lanzado conjuntamente por la Universidad de Maryland y Chapel Hill de Carolina del Norte proporciona un nuevo estándar para evaluar la capacidad de MLLM en el procesamiento de secuencias de imágenes. Esta prueba cubre secuencias de imágenes de una variedad de escenas, como el mundo real, robots y animaciones, y está diseñada para examinar exhaustivamente las capacidades de razonamiento de MLLM. La publicación de los resultados de las pruebas proporciona datos valiosos para nuestra comprensión de las ventajas y limitaciones de MLLM.
Recientemente, la Universidad de Maryland y Carolina del Norte-Chapel Hill colaboraron para lanzar Mementos, un punto de referencia de secuencia de imágenes especialmente diseñado para modelos de lenguajes grandes multimodales. Está diseñado para probar de manera integral las capacidades de razonamiento de estos modelos para el mundo real, los robots y el mundo. Secuencias de imágenes de animación. Sin embargo, los resultados de las pruebas son impactantes: MLLM como GPT-4V y Gemini logran menos del 20% de precisión en el conjunto de datos de cómics. Esto revela una clara insuficiencia de estos modelos en el manejo de ilusiones, objetos y comprensión del comportamiento en secuencias de imágenes.Los resultados de las pruebas comparativas de Mementos muestran que el MLLM convencional actual todavía tiene deficiencias significativas en el procesamiento de secuencias de imágenes complejas, especialmente secuencias de imágenes de animación. Esto proporciona una referencia importante para la dirección de investigación futura de MLLM y también nos recuerda que debemos tener cuidado con la confiabilidad de MLLM en varios escenarios de aplicación. Las investigaciones futuras deben centrarse en cómo mejorar la capacidad de MLLM para comprender secuencias de imágenes, reducir las alucinaciones y mejorar su capacidad de generalización en diferentes tipos de secuencias de imágenes.