علم محرر Downcodes أن معهد بكين تشي يوان لأبحاث الذكاء الاصطناعي (BAAI) أطلق أول منصة مناظرة صينية كبيرة الحجم في العالم FlagEval Debate! مع اعتبار مناقشة النماذج جوهرها، توفر المنصة طريقة قياس جديدة لتقييم قدرة نماذج اللغة الكبيرة، بهدف التمييز بشكل أكثر فعالية بين اختلافات القدرات بين النماذج الكبيرة المختلفة. يستخدم النقاش بذكاء، وهو نشاط فكري قائم على اللغة، لإجراء فحص شامل لقدرات النموذج في فهم المعلومات، والتفكير المنطقي، وتوليد اللغة، وما إلى ذلك، ويضمن علمية وسلطة نتائج التقييم من خلال مزيج من الاختبارات العامة ومراجعة الخبراء. الجنس. تمثل هذه الخطوة علامة فارقة جديدة في تقييم النماذج الكبيرة وتوفر مرجعًا ومرجعًا قيمًا لهذه الصناعة.
أطلق معهد بكين تشي يوان لأبحاث الذكاء الاصطناعي (BAAI) مؤخرًا برنامج FlagEval Debate، وهو أول منصة مناظرة صينية كبيرة الحجم في العالم. تهدف هذه المنصة الجديدة إلى توفير طريقة قياس جديدة لتقييم قدرة نماذج اللغات الكبيرة من خلال آلية المنافسة الخاصة بمناقشة النماذج. وهو امتداد لخدمة تقييم معركة نموذج المصدر الذكي FlagEval لساحة النماذج الكبيرة، وهدفها هو تحديد اختلافات القدرة بين نماذج اللغات الكبيرة.
هناك بعض المشاكل في معارك النماذج الكبيرة الموجودة، على سبيل المثال، غالبًا ما تكون نتائج معارك النماذج مرتبطة ومن الصعب التمييز بين الاختلافات بين النماذج؛ ويعتمد محتوى الاختبار على تصويت المستخدم ويتطلب مشاركة عدد كبير من المستخدمين الموجودين أساليب المعركة تفتقر إلى التفاعل بين النماذج. ومن أجل حل هذه المشاكل، اعتمد معهد الملكية الفكرية شكل نموذج المناقشة الكبيرة للتقييم.
وباعتبارها نشاطًا فكريًا قائمًا على اللغة، يمكن أن تعكس المناظرة التفكير المنطقي للمشاركين وتنظيم اللغة وتحليل المعلومات وقدرات المعالجة. يمكن للمناقشة النموذجية أن توضح مستوى النماذج الكبيرة في فهم المعلومات، وتكامل المعرفة، والتفكير المنطقي، وتوليد اللغة وقدرات الحوار، مع اختبار عمق معالجة المعلومات والقدرة على التكيف مع الهجرة في سياقات معقدة.
وجد معهد Zhiyuan للأبحاث أن المعارك التفاعلية مثل المناظرات يمكن أن تسلط الضوء على الفجوات بين النماذج وتحسب التصنيفات الفعالة للنماذج بناءً على عدد صغير من عينات البيانات. ولذلك، أطلقوا برنامج FlagEval Debate، وهو منصة مناظرة صينية كبيرة الحجم تعتمد على الاختبار العام.
تدعم المنصة نموذجين لإجراء المناقشات حول مواضيع المناقشة. يتم اختيار موضوعات المناقشة بشكل عشوائي بواسطة المنصة. تتكون قاعدة بيانات موضوعات المناقشة بشكل أساسي من موضوعات البحث الساخنة وخبراء التقييم وموضوعات المناقشة التي تم ترتيبها بواسطة كبار خبراء المناظرة. يمكن لجميع المستخدمين الحكم على كل مناقشة على المنصة لتعزيز تجربة المستخدم.
تتضمن كل مناظرة نموذجية 5 جولات من عرض الآراء، مع إتاحة فرصة واحدة لكل جانب. ومن أجل تجنب الانحراف الناتج عن موضع المربعين الموجب والسالب، سيقوم كلا النموذجين بعمل مربع واحد ومربع سالب واحد لكل منهما. يتنافس كل نموذج كبير في مناظرات متعددة ضد نماذج أخرى، ويتم احتساب الترتيب النهائي للنموذج بناءً على نقاط الفوز.
تتبنى مسابقة المناظرة النموذجية طريقتين: الاختبار العام المفتوح وتقييم الخبراء. وتتكون لجنة التحكيم من لاعبين وحكام من مسابقات المناظرة الاحترافية. يمكن لجمهور الاختبار العام المفتوح التقدير والتصويت بحرية.
صرح معهد Zhiyuan للأبحاث بأنه سيواصل استكشاف المسار الفني والقيمة التطبيقية للمناقشة النموذجية، والالتزام بمبادئ العلم والسلطة والعدالة والانفتاح، والتحسين المستمر لنظام تقييم النماذج الكبيرة FlagEval، وتقديم رؤى وتفكير جديد بيئة التقييم النموذجية الكبيرة
الموقع الرسمي لمناظرة FlagEval:
https://flageval.baai.org/#/debate
يوفر إطلاق FlagEval Debate أفكارًا وأساليب جديدة لتقييم النماذج الكبيرة، كما يساهم أيضًا في تطوير تكنولوجيا النماذج الكبيرة. ويأمل محرر Downcodes أن تستمر المنصة في التحسن في المستقبل وجلب المزيد من الابتكارات والاختراقات في مجال النماذج الكبيرة.