أصدرت أحدث أبحاث Apple اختبار MAD-Bench المعياري، والذي تم تصميمه لتقييم قوة نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) عند التعامل مع المعلومات المضللة. تقوم هذه الدراسة بتقييم شامل لقدرة MLLMs على التعامل مع تناسق النص والصورة من خلال 850 زوجًا من مطالبات الصور، مما يوفر بيانات مرجعية قيمة لتطوير MLLMs. سيساعد إنشاء هذا المعيار على تحسين الموثوقية وقدرات مكافحة التدخل لنماذج الذكاء الاصطناعي وتعزيز التطور الصحي لتكنولوجيا الذكاء الاصطناعي.
اقترحت شركة Apple Research معيار MAD-Bench لحل مشكلة ضعف نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) في التعامل مع المعلومات المضللة. تتألف هذه الدراسة من 850 زوجًا من الصور وقيمت قدرة MLLMs على التعامل مع تطابق النص والصورة. ووجدت الدراسة أن أداء GPT-4V كان أفضل في فهم المشهد والارتباك البصري، مما يوفر نصائح مهمة لتصميم نماذج الذكاء الاصطناعي. من خلال معيار MAD-Bench، سيتم تحسين قوة نموذج الذكاء الاصطناعي، وستكون الأبحاث المستقبلية أكثر موثوقية.يمثل ظهور معيار MAD-Bench مرحلة جديدة في تقييم نموذج الذكاء الاصطناعي. وفي المستقبل، ستظهر المزيد والمزيد من المعايير الموثوقة، مما يعزز تطوير تكنولوجيا الذكاء الاصطناعي بشكل أكثر أمانًا وموثوقية، ويجلب المزيد من الفوائد للمجتمع البشري.