أصدر فريق علي بابا كوين معيارًا جديدًا يسمى "PROCESSBENCH"، والذي يهدف إلى إجراء تقييم أكثر شمولاً لقدرة نماذج اللغة في التفكير الرياضي، مع التركيز بشكل خاص على قدرة النموذج على تحديد أخطاء العملية. المعايير الحالية لها قيود، مثل كونها مبسطة للغاية بالنسبة للنماذج عالية المستوى أو تقديم تقييمات الصحة الثنائية فقط، وتفتقر إلى تحليل مفصل لخطوات الخطأ. إن ظهور "PROCESSBENCH" يملأ هذه الفجوة ويوفر أداة جديدة لفهم أعمق وتحسين آلية الاستدلال لنماذج اللغة.
في الآونة الأخيرة، أطلق باحثون من فريق Qwen التابع لشركة علي بابا معيارًا جديدًا يسمى "PROCESSBENCH"، والذي تم تصميمه لقياس قدرة النماذج اللغوية على تحديد أخطاء العمليات في التفكير الرياضي. نظرًا لأن النماذج اللغوية حققت تقدمًا كبيرًا في مهام الاستدلال المعقدة، فقد وجد الباحثون في هذا المجال أنه على الرغم من أدائها الممتاز، إلا أنها لا تزال تواجه تحديات في التعامل مع بعض المشكلات الصعبة. لذلك، من المهم بشكل خاص تطوير طريقة إشراف فعالة.
معايير التقييم الحالية لنماذج اللغة لديها بعض أوجه القصور. من ناحية، تصبح بعض مجموعات المشكلات بسيطة جدًا بالنسبة للنماذج المتقدمة، ومن ناحية أخرى، غالبًا ما توفر طرق التقييم الحالية تقييمات الصحة الثنائية فقط دون تعليقات توضيحية تفصيلية للأخطاء. تسلط هذه الظاهرة الضوء على الحاجة الملحة إلى أطر تقييم أكثر شمولاً لإجراء فحص أعمق لآليات الاستدلال لنماذج اللغة المعقدة.
لسد هذه الفجوة، صمم الباحثون "PROCESSBENCH"، وهو معيار يركز على تحديد الخطوات الخاطئة في التفكير الرياضي. تتضمن مبادئ تصميمها صعوبة المشكلة وتنوع الحلول والتقييم الشامل. يستهدف المعيار المنافسة ومشاكل الرياضيات على مستوى الأولمبياد، مع الاستفادة من نماذج اللغات مفتوحة المصدر المتعددة لإنشاء حلول توضح أساليب مختلفة لحل المشكلات. يحتوي PROCESSBENCH على إجمالي 3400 حالة اختبار تم شرحها بعناية من قبل العديد من الخبراء البشريين لضمان جودة البيانات وموثوقية التقييم.
أثناء التطوير، قام فريق البحث بجمع المسائل الرياضية من أربع مجموعات بيانات معروفة (GSM8K، MATH، OlympiadBench وOmni-MATH)، مما يضمن تغطية مجموعة واسعة من الصعوبات من المدرسة الابتدائية إلى مستوى المنافسة. لقد استفادوا من النماذج مفتوحة المصدر لإنشاء ما يصل إلى 12 حلاً مختلفًا لزيادة تنوع الحلول. بالإضافة إلى ذلك، من أجل توحيد تنسيق خطوات الحل، اعتمد الفريق طريقة إعادة التنسيق لضمان الاستدلال المنطقي الكامل خطوة بخطوة.
تظهر نتائج الأبحاث أن نماذج مكافأة العمليات الحالية تؤدي أداءً سيئًا عند التعامل مع المشكلات الصعبة، خاصة في مجموعات المشكلات الأبسط، وأن نموذج الحكم الموجه بسرعة يؤدي أداءً أكثر بروزًا. ويكشف البحث محدودية النماذج الموجودة في تقييم الاستدلال الرياضي، خاصة عندما يصل النموذج إلى الإجابة الصحيحة من خلال خطوات وسطية خاطئة، مما يجعل من الصعب الحكم بدقة.
باعتباره معيارًا رائدًا لتقييم قدرة النماذج اللغوية على تحديد أخطاء الاستدلال الرياضي، يوفر PROCESSBENCH إطارًا مهمًا للبحث المستقبلي ويعزز فهم الذكاء الاصطناعي وتحسينه في عملية الاستدلال.
مدخل الورق: https://github.com/QwenLM/ProcessBench?tab=readme-ov-file
الكود: https://github.com/QwenLM/ProcessBench?tab=readme-ov-file
بشكل عام، يوفر إطلاق معيار PROCESSBENCH أداة أكثر شمولاً وتعمقًا لتقييم قدرة التفكير الرياضي لنماذج اللغة، مما يساعد على تعزيز تطوير البحث في هذا المجال وفي نهاية المطاف تحسين أداء نماذج اللغة في مهام التفكير المعقدة.