Baru-baru ini, evaluasi kinerja model bahasa besar multimodal (MLLM) telah menjadi pusat penelitian di bidang kecerdasan buatan. Tolok ukur Mementos yang diluncurkan bersama oleh University of Maryland dan North Carolina Chapel Hill memberikan standar baru untuk mengevaluasi kemampuan MLLM dalam memproses rangkaian gambar. Tes ini mencakup rangkaian gambar dari berbagai adegan seperti dunia nyata, robot, dan animasi, dan dirancang untuk menguji kemampuan penalaran MLLM secara komprehensif. Rilis hasil tes memberikan data berharga untuk pemahaman kita tentang kelebihan dan keterbatasan MLLM.
Baru-baru ini, Universitas Maryland dan North Carolina-Chapel Hill berkolaborasi untuk merilis Mementos, sebuah tolok ukur urutan gambar yang dirancang khusus untuk model bahasa besar multi-modal. Hal ini dirancang untuk menguji secara komprehensif kemampuan penalaran model ini untuk dunia nyata, robot, dan rangkaian gambar animasi. Namun, hasil pengujiannya mengejutkan, karena MLLM seperti GPT-4V dan Gemini mencapai akurasi kurang dari 20% pada kumpulan data komik. Hal ini menunjukkan kelemahan yang jelas dari model-model ini dalam menangani ilusi, objek, dan pemahaman perilaku dalam rangkaian gambar.Hasil uji benchmark Mementos menunjukkan bahwa MLLM mainstream saat ini masih memiliki kekurangan yang signifikan dalam memproses rangkaian gambar yang kompleks, khususnya rangkaian gambar animasi. Hal ini memberikan referensi penting untuk arah penelitian MLLM di masa depan, dan juga mengingatkan kita bahwa kita perlu berhati-hati terhadap keandalan MLLM dalam berbagai skenario penerapan. Penelitian di masa depan perlu fokus pada bagaimana meningkatkan kemampuan MLLM dalam memahami rangkaian gambar, mengurangi halusinasi, dan meningkatkan kemampuan generalisasi pada berbagai jenis rangkaian gambar.