เมื่อเร็วๆ นี้ การประเมินประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่หลายรูปแบบ (MLLM) ได้กลายเป็นจุดสนใจในการวิจัยในสาขาปัญญาประดิษฐ์ เกณฑ์มาตรฐาน Mementos ที่มหาวิทยาลัยแมรีแลนด์และนอร์ธแคโรไลนาแชเปิลฮิลล์เปิดตัวร่วมกัน ถือเป็นมาตรฐานใหม่ในการประเมินความสามารถของ MLLM ในการประมวลผลลำดับภาพ การทดสอบนี้ครอบคลุมลำดับภาพจากฉากต่างๆ เช่น โลกแห่งความเป็นจริง หุ่นยนต์ และภาพเคลื่อนไหว และได้รับการออกแบบมาเพื่อตรวจสอบความสามารถในการให้เหตุผลของ MLLM อย่างครอบคลุม การเปิดเผยผลการทดสอบให้ข้อมูลอันมีคุณค่าสำหรับความเข้าใจของเราเกี่ยวกับข้อดีและข้อจำกัดของ MLLM
เมื่อเร็วๆ นี้ มหาวิทยาลัยแมรีแลนด์และนอร์ธแคโรไลนา-แชเปิลฮิลล์ได้ร่วมมือกันเปิดตัว Mementos ซึ่งเป็นเกณฑ์มาตรฐานลำดับภาพที่ออกแบบมาเป็นพิเศษสำหรับโมเดลภาษาขนาดใหญ่หลายรูปแบบ ได้รับการออกแบบมาเพื่อทดสอบความสามารถในการให้เหตุผลของโมเดลเหล่านี้อย่างครอบคลุมสำหรับโลกแห่งความเป็นจริง หุ่นยนต์ และ ลำดับภาพแอนิเมชั่น อย่างไรก็ตาม ผลการทดสอบน่าตกใจ โดยที่ MLLM เช่น GPT-4V และ Gemini มีความแม่นยำน้อยกว่า 20% ในชุดข้อมูลการ์ตูน สิ่งนี้เผยให้เห็นความไม่เพียงพอที่ชัดเจนของแบบจำลองเหล่านี้ในการจัดการกับภาพลวงตา วัตถุ และความเข้าใจเชิงพฤติกรรมในลำดับภาพผลการทดสอบเกณฑ์มาตรฐาน Mementos แสดงให้เห็นว่า MLLM กระแสหลักในปัจจุบันยังคงมีข้อบกพร่องที่สำคัญในการประมวลผลลำดับภาพที่ซับซ้อน โดยเฉพาะอย่างยิ่งลำดับภาพแอนิเมชั่น ข้อมูลนี้เป็นข้อมูลอ้างอิงที่สำคัญสำหรับทิศทางการวิจัยในอนาคตของ MLLM และยังเตือนเราด้วยว่าเราจำเป็นต้องระมัดระวังเกี่ยวกับความน่าเชื่อถือของ MLLM ในสถานการณ์การใช้งานต่างๆ การวิจัยในอนาคตจำเป็นต้องมุ่งเน้นไปที่วิธีปรับปรุงความสามารถของ MLLM ในการทำความเข้าใจลำดับภาพ ลดภาพหลอน และปรับปรุงความสามารถในการวางลักษณะทั่วไปของลำดับภาพประเภทต่างๆ