أطلق فريق Alibaba Cloud Tongyi نموذجًا جديدًا لمكافأة عملية الاستدلال الرياضي Qwen2.5-Math-PRM، ويتوفر هذا النموذج بأحجام 72B و7B، وهو يتفوق بشكل كبير على النماذج مفتوحة المصدر المماثلة في الأداء، خاصة في تحديد أخطاء الاستدلال. ومن الجدير بالذكر أن الإصدار 7B قد تجاوز حتى الإصدار GPT-4o الشهير، مما يدل على التقدم المذهل الذي حققته Alibaba Cloud في مجال البحث والتطوير في نماذج الاستدلال. من أجل تقييم أداء النموذج بشكل أكثر شمولاً، قام الفريق أيضًا بفتح المصدر الأول لمعيار التقييم على مستوى الخطوة ProcessBench، والذي يحتوي على 3400 سؤال رياضي يغطي صعوبة أولمبياد الرياضيات، ويتميز بعمليات تفكير تفصيلية من قبل خبراء لضمان العلمية ودقة التقييم.
اليوم، أصدر فريق Alibaba Cloud Tongyi رسميًا نموذجًا جديدًا لمكافأة عملية التفكير الرياضي Qwen2.5-Math-PRM. النموذج متوفر بحجمين: 72B و7B، وأدائه أفضل بكثير من نماذج مكافأة العمليات مفتوحة المصدر المماثلة، خاصة في تحديد أخطاء الاستدلال.
لقد تجاوز الإصدار 7B من Qwen2.5-Math-PRM بشكل مدهش GPT-4o الشهير في الصناعة، ويمثل هذا الإنجاز خطوة مهمة لـ Alibaba Cloud في تطوير نماذج الاستدلال. ومن أجل إجراء تقييم شامل لأداء النموذج في الاستدلال الرياضي، قام فريق Tongyi أيضًا بفتح المصدر الأول لمعيار التقييم على مستوى الخطوة - ProcessBench. يغطي معيار التقييم هذا 3400 حالة اختبار للمسائل الرياضية، بما في ذلك الأسئلة الصعبة من مسابقة أولمبياد الرياضيات الدولية، وتتميز كل حالة بعملية تفكير تفصيلية من قبل خبراء بشريين لضمان علمية التقييم وشموله.
من خلال تقييم أداء Qwen2.5-Math-PRM على ProcessBench، وجد فريق البحث أن كلا النموذجين بحجم 72B و7B كان أداؤهما جيدًا. لا سيما الإصدار 7B، لا يتفوق فقط على النموذج مفتوح المصدر بنفس الحجم، بل يتفوق أيضًا على المصدر المغلق GPT-4o-0806 في بعض الجوانب. يوضح هذا الإمكانات الكبيرة لنموذج مكافأة العملية (PRM) في تحسين موثوقية الاستدلال ويوفر أفكارًا جديدة لتطوير تكنولوجيا الإشراف على عملية الاستدلال في المستقبل.
هذا العمل المبتكر الذي قام به فريق Alibaba Cloud Tongyi لا يعزز تقدم تكنولوجيا استدلال الذكاء الاصطناعي فحسب، بل يوفر أيضًا مرجعًا قيمًا للمطورين الآخرين في الصناعة. ومن خلال المصادر المفتوحة، يأمل فريق Tongyi في تبادل الخبرات مع المزيد من الباحثين وتعزيز التقدم التكنولوجي في الصناعة بأكملها.
يمثل إصدار Qwen2.5-Math-PRM إنجازًا جديدًا للنماذج الكبيرة في مجال التفكير الرياضي. كما توفر ميزة المصدر المفتوح الخاصة به راحة كبيرة للبحث والتطبيق في الأوساط الأكاديمية والصناعة المزيد من الاحتمالات في التطوير المستقبلي للذكاء الاصطناعي.