قامت أكاديمية Alibaba Damo ومجتمع MoDa ModelScope بشكل مشترك بفتح مجموعة اختبار مرجعية جديدة متعددة اللغات P-MMEval، والتي تهدف إلى تقييم القدرات المتعددة اللغات لنماذج اللغات الكبيرة (LLM) بشكل أكثر شمولاً ومقارنة قدرات النقل عبر اللغات الخاصة بها. تغطي مجموعة الاختبار مجموعة بيانات فعالة من القدرات الأساسية والمتخصصة، مما يضمن تغطية متسقة متعددة اللغات ويوفر عينات متوازية عبر لغات متعددة، ويدعم ما يصل إلى 10 لغات من 8 عائلات لغوية مختلفة. تم إطلاق P-MMEval لمعالجة أوجه القصور في تقييم LLM الحالي، مثل عدم وجود نتائج تقييم دقيقة ومتوازية متعددة اللغات وعدم الاتساق في التغطية متعددة اللغات لمجموعات المعايير الحالية.
قامت أكاديمية Alibaba Damo ومجتمع MoDa ModelScope بشكل مشترك بفتح مجموعة اختبار مرجعية جديدة متعددة اللغات P-MMEval، والتي تهدف إلى تقييم القدرات المتعددة اللغات لنماذج اللغات الكبيرة (LLM) بشكل أكثر شمولاً ومقارنة قدرات النقل عبر اللغات الخاصة بها. تغطي مجموعة الاختبار مجموعة بيانات فعالة من القدرات الأساسية والمتخصصة، مما يضمن تغطية متسقة متعددة اللغات ويوفر عينات متوازية عبر لغات متعددة، ويدعم ما يصل إلى 10 لغات من 8 عائلات لغوية مختلفة. تم إطلاق P-MMEval لمعالجة أوجه القصور في تقييم LLM الحالي، مثل عدم وجود نتائج تقييم دقيقة ومتوازية متعددة اللغات وعدم الاتساق في التغطية متعددة اللغات لمجموعات المعايير الحالية.
يختار P-MMEval مجموعات اختبار مرجعية متاحة ومعقولة استنادًا إلى طريقة قائمة على اختبار الأهمية، ويدمج مهام معالجة اللغة الطبيعية الأساسية ومهام التقييم الخاصة بالقدرة، ويضمن الاتساق في التغطية اللغوية لكل مهمة، ويوفر عينات متوازية من اللغات للسماح بإجراء مقارنات متسقة. بالنسبة لتنوع المهام، يغطي P-MMEval مهمتين أساسيتين أساسيتين في البرمجة اللغوية العصبية (التوليد والفهم) بالإضافة إلى القدرات الأساسية الخمس لماجستير القانون الحالي. ومن حيث التنوع اللغوي، يوحد P-MMEval عشر لغات مختلفة تغطي ثماني عائلات لغوية.
تم دمج مجموعة بيانات P-MMEval في أطر تقييم نظام Sinan OpenCompass وEvalScope، ويمكن تنفيذ مهام التقييم باستخدام هذين الإطارين. يوفر OpenCompass منصة مفتوحة المصدر وفعالة وشاملة لتقييم النماذج الكبيرة تدعم التقييم الشامل لنماذج اللغات الكبيرة والنماذج متعددة الوسائط والنماذج المختلفة، وتنشر قوائم نتائج التقييم بانتظام. تم أيضًا ربط P-MMEval بنظام التقييم OpenCompass لأول مرة، ويمكنه استخدام أداة Sinan OpenCompass مفتوحة المصدر لإكمال مهام التقييم.
قام الباحثون بتقييم أداء العديد من نماذج ضبط التعليمات التمثيلية، بما في ذلك النماذج مغلقة المصدر GPT-4o وClaude-3.5 والنماذج مفتوحة المصدر LLaMA3.1 وLLaMA3.2 وQwen2.5 وما إلى ذلك. تظهر النتائج التجريبية أنه، باستثناء سلسلة LLaMA3.2، تتحسن القدرات المتعددة اللغات لجميع النماذج مع زيادة حجم النموذج. يُظهر Qwen2.5 أداءً قويًا متعدد اللغات في مهام الفهم والتخصص، بينما يؤدي Gemma2 أداءً جيدًا في مهام الإنشاء. النماذج المغلقة المصدر أفضل بشكل عام من النماذج مفتوحة المصدر.
يوفر إطلاق P-MMEval أدوات وأساليب جديدة لتقييم القدرة متعددة اللغات للنماذج الكبيرة، مما يساعد على تعزيز تطوير وتطبيق تكنولوجيا البرمجة اللغوية العصبية متعددة اللغات.
رابط مجموعة البيانات:
https://www.modelscope.cn/datasets/modelscope/P-MMEval
يوفر المصدر المفتوح لـ P-MMEval معيارًا أكثر شمولاً وموحدًا لتقييم القدرة متعددة اللغات لنماذج اللغات الكبيرة. وهو يغطي مجموعة واسعة من اللغات وأنواع المهام المتنوعة، مما يوفر موارد قيمة للباحثين والمطورين ويعزز تطوير مجال البرمجة اللغوية العصبية متعددة اللغات. ونحن نتطلع إلى تحسين P-MMEval بشكل مستمر في المستقبل لتقديم خدمة أفضل لتقييم وتحسين LLM متعدد اللغات.