في الآونة الأخيرة، أصدرت جامعة هواتشونغ للعلوم والتكنولوجيا ومؤسسات أخرى بشكل مشترك معيارًا جديدًا للنماذج الكبيرة متعددة الوسائط. يغطي المعيار خمس مهام رئيسية و27 مجموعة بيانات، مما يوفر معيارًا أكثر شمولاً لتقييم النماذج الكبيرة متعددة الوسائط. يهدف إصدار هذا المعيار إلى تعزيز تطوير تكنولوجيا النماذج الكبيرة متعددة الوسائط وتعزيز تطبيقها في مختلف المجالات. تظهر نتائج التقييم على المعيار الجديد أن النماذج الحالية تؤدي أداءً جيدًا في بعض المهام ولكنها لا تزال تعاني من أوجه قصور في مهام أخرى، مما يوفر مرجعًا مهمًا لاتجاهات البحث المستقبلية.
أصدرت جامعة هواتشونغ للعلوم والتكنولوجيا ومؤسسات أخرى معيارًا جديدًا للنماذج الكبيرة متعددة الوسائط، يغطي خمس مهام رئيسية و27 مجموعة بيانات. تُظهر نتائج التقييم أداءً ممتازًا في مهام مثل التعرف على النص والإجابة على أسئلة المستندات، ولكن هناك تحديات في التبعيات الدلالية والنصوص المكتوبة بخط اليد والنصوص متعددة اللغات. قام فريق البحث ببناء OCRBench لتقييم قدرات التعرف الضوئي على الحروف بشكل أكثر دقة وتوفير التوجيه لتطوير نماذج كبيرة متعددة الوسائط. يوفر تقديم OCRBench للباحثين أدوات شاملة لتعزيز التقييم الدقيق وتحسين النماذج الكبيرة متعددة الوسائط في مجال التعرف الضوئي على الحروف.
لا توفر نتيجة البحث هذه تجربة قيمة لتطوير نماذج كبيرة متعددة الوسائط فحسب، بل تضع أيضًا أساسًا متينًا لتعزيز تطبيق تكنولوجيا الذكاء الاصطناعي في نطاق أوسع من المجالات. في المستقبل، نتوقع المزيد من الأبحاث المماثلة لمساعدتنا على فهم وتطبيق النماذج الكبيرة متعددة الوسائط بشكل أفضل، وبالتالي تحقيق تقدم كبير في تكنولوجيا الذكاء الاصطناعي.