تم الإبلاغ عن MathVerse، وهو معيار جديد لتقييم نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) في حل المشكلات الرياضية المرئية، بواسطة Webmaster Home. اختبر هذا المعيار أداء العديد من MLLMs في معالجة المشكلات الرياضية التي تحتوي على معلومات مرئية. وأظهرت النتائج أن معظم النماذج اعتمدت بشكل كبير على الإدخال المرئي، في حين كان أداء GPT-4V جيدًا في كل من الإدخال النصي والمرئي. يوفر هذا البحث مرجعًا قيمًا لتطوير MLLMs المستقبلية، ويحث المطورين أيضًا على إيلاء المزيد من الاهتمام لقدرة النموذج على معالجة معلومات مشروطة مختلفة.
تركز المقالة على نتائج اختبار MathVerse، مع تسليط الضوء على الأداء الممتاز لـ GPT-4V واعتماد معظم النماذج على المدخلات المرئية. يتمتع هذا البحث بأهمية كبيرة في تعزيز تطوير نماذج لغوية واسعة النطاق ومتعددة الوسائط. وفي المستقبل، ستظهر نماذج أكثر قوة للتعامل بشكل أفضل مع المهام المعقدة التي تحتوي على معلومات مرئية.