مع التطور السريع لتكنولوجيا الذكاء الاصطناعي التوليدي، أصبحت كيفية تقييم أدائها بشكل موضوعي مشكلة ملحة يجب حلها. خاصة بالنسبة لنماذج مخطط فنسنت، فإن طرق التقييم التقليدية لها ذاتية وقيود، مما يجعل من الصعب عكس التأثير الفعلي للنموذج بدقة. سيقدم لكم محرر Downcodes برنامج تقييم الرسوم البيانية Vincentian الجديد الذي أطلقته جامعة كارنيجي ميلون وباحثو Meta - VQAScore، ومعيار تقييم جديد - GenAI-Bench، وكيف سيغيرون معايير التقييم في مجال الرسوم البيانية Vincentian .
تعتمد طرق التقييم التقليدية إما على العيون البشرية، وهي غير موضوعية للغاية؛ أو تستخدم بعض المؤشرات البسيطة، مثل CLIPScore، لكن هذه المؤشرات غالبًا لا تستطيع التقاط التفاصيل في مطالبات نصية معقدة، مثل العلاقة بين الأشياء والتفكير المنطقي وما إلى ذلك. يؤدي هذا إلى نتائج تقييم غير دقيقة للعديد من نماذج الرسوم البيانية الفينسنتية، وحتى بعض المواقف المضحكة تحدث. من الواضح أن الصور التي تم إنشاؤها خاطئة، لكن الدرجات عالية جدًا.
من أجل حل هذه المشكلة، قام باحثون من جامعة كارنيجي ميلون وميتا مؤخرًا بتضافر جهودهم لإطلاق برنامج جديد لتقييم الرسوم البيانية الفينسنتية VQAScore. الفكرة الأساسية لهذا الحل هي استخدام نموذج الإجابة على الأسئلة المرئية (VQA) لتسجيل نموذج الرسم البياني لفنسنت.
على وجه التحديد، سيقوم VQAScore أولاً بتحويل المطالبة النصية إلى سؤال بسيط، مثل "هل هناك قطة تطارد فأرًا في هذه الصورة؟"، ثم يقوم بإلقاء الصورة التي تم إنشاؤها وهذا السؤال إلى نموذج VQA. سيحكم نموذج VQA على ما إذا كانت إجابة السؤال هي "نعم" أو "لا" بناءً على محتوى الصورة، وسيقوم VQAScore بتسجيل نموذج مخطط فنسنت بناءً على احتمالية حكم نموذج VQA بـ "نعم".
تبدو هذه الطريقة بسيطة، لكن تأثيرها جيد بشكل مدهش. استخدم الباحثون VQAScore لاختبار ثمانية معايير مختلفة لتقييم الرسم البياني لـ Vincent. ووجدت النتائج أن دقة وموثوقية VQAScore تجاوزت طرق التقييم التقليدية بكثير، وكانت قابلة للمقارنة مع تلك التي تستخدم نماذج كبيرة جدًا مثل GPT-4V.
والأمر الأكثر قوة هو أنه لا يمكن استخدام VQAScore لتقييم صور Vincent فحسب، بل لتقييم مقاطع فيديو Vincent ونماذج Vincent ثلاثية الأبعاد أيضًا. وذلك لأن جوهر VQAScore هو نموذج VQA، ويمكن لنموذج VQA نفسه التعامل مع أنواع مختلفة من المحتوى المرئي.
من أجل تعزيز التقدم في مجال الرسوم البيانية Vincentian، أنشأ الباحثون أيضًا معيارًا جديدًا لتقييم الرسوم البيانية Vincentian-GenAI-Bench. يحتوي هذا المعيار على 1600 مطالبة نصية معقدة تغطي مختلف قدرات التفكير اللغوي المرئي، مثل المقارنة والعد والتفكير المنطقي وما إلى ذلك. جمع الباحثون أيضًا أكثر من 15000 تعليقًا توضيحيًا يدويًا لتقييم فعالية نماذج مخططات فنسنت المختلفة.
بشكل عام، أدى ظهور VQAScore وGenAI-Bench إلى جلب حيوية جديدة إلى مجال الرسوم البيانية فينسنت. يوفر VQAScore طريقة تقييم أكثر دقة وموثوقية يمكنها مساعدة الباحثين على تقييم مزايا وعيوب النماذج المختلفة بشكل أفضل. يوفر GenAI-Bench معيار تقييم أكثر شمولاً وتحديًا، والذي يمكن أن يعزز تطوير نماذج الرسم البياني لـ Vincent في اتجاه أكثر ذكاءً وإنسانية.
وبطبيعة الحال، لدى VQAScore أيضًا بعض القيود. في الوقت الحاضر، يعتمد VQAScore بشكل أساسي على نماذج VQA مفتوحة المصدر، وأداء هذه النماذج ليس جيدًا مثل النماذج مغلقة المصدر مثل GPT-4V. في المستقبل، مع استمرار نموذج VQA في التحسن، سيتم تحسين أداء VQAScore بشكل أكبر.
عنوان المشروع: https://linzhiqiu.github.io/papers/vqascore/
يوفر ظهور VQAScore وGenAI-Bench طريقة جديدة لتقييم نماذج الرسوم البيانية Vincentian بشكل موضوعي ويعزز التطوير التكنولوجي وابتكار التطبيقات في هذا المجال. من المعتقد أن المزيد والمزيد من أساليب التقييم المتقدمة ستظهر في المستقبل لزيادة تعزيز الأداء وقيمة التطبيق لنموذج مخطط فنسنت. نتطلع إلى التقدم المستمر في هذا المجال!