في الآونة الأخيرة، أصبح تقييم أداء نماذج اللغات الكبيرة متعددة الوسائط (MLLM) نقطة ساخنة للبحث في مجال الذكاء الاصطناعي. يوفر معيار Mementos الذي أطلقته جامعة ميريلاند ونورث كارولينا تشابل هيل معيارًا جديدًا لتقييم قدرة MLLM في معالجة تسلسلات الصور. يغطي هذا الاختبار تسلسلات الصور من مجموعة متنوعة من المشاهد مثل العالم الحقيقي، والروبوتات، والرسوم المتحركة، وهو مصمم لإجراء فحص شامل لقدرات التفكير في MLLM. يوفر إصدار نتائج الاختبار بيانات قيمة لفهمنا لمزايا وقيود MLLM.
في الآونة الأخيرة، تعاونت جامعة ميريلاند ونورث كارولينا-تشابل هيل لإصدار Mementos، وهو معيار لتسلسل الصور مصمم خصيصًا لنماذج اللغات الكبيرة متعددة الوسائط، وهو مصمم لاختبار القدرات المنطقية لهذه النماذج بشكل شامل في العالم الحقيقي والروبوتات تسلسل الصور المتحركة. ومع ذلك، فإن نتائج الاختبار صادمة، حيث حققت MLLMs مثل GPT-4V وGemini دقة أقل من 20% في مجموعة البيانات المصورة. وهذا يكشف عن قصور واضح لهذه النماذج في التعامل مع الأوهام والأشياء والفهم السلوكي في تسلسل الصور.تظهر نتائج اختبار Mementos المعياري أن MLLM السائد الحالي لا يزال يعاني من أوجه قصور كبيرة في معالجة تسلسلات الصور المعقدة، وخاصة تسلسلات الصور المتحركة. يوفر هذا مرجعًا مهمًا لاتجاه البحث المستقبلي لـ MLLM، ويذكرنا أيضًا أننا بحاجة إلى توخي الحذر بشأن موثوقية MLLM في سيناريوهات التطبيق المختلفة. يحتاج البحث المستقبلي إلى التركيز على كيفية تحسين قدرة MLLM على فهم تسلسلات الصور، وتقليل الهلوسة، وتحسين قدرتها على التعميم على أنواع مختلفة من تسلسلات الصور.