Recentemente, a avaliação de desempenho de modelos multimodais de grandes linguagens (MLLM) tornou-se um ponto importante de pesquisa no campo da inteligência artificial. O benchmark Mementos lançado conjuntamente pela Universidade de Maryland e Chapel Hill da Carolina do Norte fornece um novo padrão para avaliar a capacidade do MLLM no processamento de sequências de imagens. Este teste cobre sequências de imagens de uma variedade de cenas, como o mundo real, robôs e animações, e é projetado para examinar de forma abrangente as capacidades de raciocínio do MLLM. A divulgação dos resultados dos testes fornece dados valiosos para a nossa compreensão das vantagens e limitações do MLLM.
Recentemente, a Universidade de Maryland e a Carolina do Norte-Chapel Hill colaboraram para lançar o Mementos, um benchmark de sequência de imagens especialmente projetado para modelos multimodais de grandes linguagens. Ele foi projetado para testar de forma abrangente as capacidades de raciocínio desses modelos para o mundo real, robôs e robôs. sequências de imagens de animação. No entanto, os resultados dos testes são chocantes, com MLLMs como GPT-4V e Gemini alcançando menos de 20% de precisão no conjunto de dados de quadrinhos. Isso revela uma clara inadequação desses modelos no tratamento de ilusões, objetos e compreensão comportamental em sequências de imagens.Os resultados do teste de benchmark Mementos mostram que o atual MLLM convencional ainda apresenta deficiências significativas no processamento de sequências de imagens complexas, especialmente sequências de imagens de animação. Isto fornece uma referência importante para a direção futura da pesquisa do MLLM e também nos lembra que precisamos ter cuidado com a confiabilidade do MLLM em vários cenários de aplicação. A pesquisa futura precisa se concentrar em como melhorar a capacidade do MLLM de compreender sequências de imagens, reduzir alucinações e melhorar sua capacidade de generalização em diferentes tipos de sequências de imagens.