최근 MLLM(Multimodal Large Language Model)의 성능 평가가 인공지능 분야의 연구 핫스팟이 되고 있다. 메릴랜드 대학교와 노스캐롤라이나 채플힐이 공동으로 출시한 Mementos 벤치마크는 이미지 시퀀스 처리에서 MLLM의 능력을 평가하기 위한 새로운 표준을 제공합니다. 본 테스트는 현실 세계, 로봇, 애니메이션 등 다양한 장면의 이미지 시퀀스를 다루며, MLLM의 추론 능력을 종합적으로 검토하도록 설계되었습니다. 테스트 결과 공개는 MLLM의 장점과 한계를 이해하는 데 귀중한 데이터를 제공합니다.
최근 메릴랜드 대학교와 노스 캐롤라이나-채플 힐은 다중 모드 대형 언어 모델을 위해 특별히 설계된 이미지 시퀀스 벤치마크인 Mementos를 출시하기 위해 협력했습니다. 애니메이션 이미지 시퀀스. 그러나 테스트 결과는 충격적입니다. GPT-4V 및 Gemini와 같은 MLLM은 만화 데이터 세트에서 20% 미만의 정확도를 달성했습니다. 이는 이미지 시퀀스의 환상, 객체 및 행동 이해를 처리하는 데 있어 이러한 모델이 명백히 부적절함을 나타냅니다.Mementos 벤치마크 테스트 결과는 현재 주류 MLLM이 복잡한 이미지 시퀀스, 특히 애니메이션 이미지 시퀀스를 처리하는 데 여전히 심각한 결함이 있음을 보여줍니다. 이는 MLLM의 향후 연구 방향에 대한 중요한 참고 자료를 제공하며 다양한 응용 시나리오에서 MLLM의 신뢰성에 주의해야 함을 상기시켜 줍니다. 향후 연구에서는 이미지 시퀀스를 이해하고 환각을 줄이며 다양한 유형의 이미지 시퀀스에 대한 일반화 능력을 향상시키는 MLLM의 능력을 향상시키는 방법에 초점을 맞춰야 합니다.