علم محرر موقع Downcodes أن شركة Apple أصدرت مؤخرًا دراسة حول قدرات التفكير الرياضي لنماذج اللغات الكبيرة (LLM)، والتي جذبت اهتمامًا واسع النطاق في الصناعة. تتساءل هذه الدراسة عن أداء LLM الحالي على معيار GSM8K وتقدم معيارًا محسّنًا لـ GSM-Symbolic لتقييم قدرات التفكير المنطقي لـ LLM بشكل أكثر موثوقية. يعد هذا البحث ذا أهمية كبيرة لفهم قيود LLM في مجال الرياضيات، كما يوفر رؤى قيمة حول اتجاه التحسين المستقبلي لـ LLM.
ومؤخرًا، أجرت شركة Apple دراسة حول القدرات الاستدلالية لنماذج اللغات الكبيرة (LLM)، مما أثار المخاوف بشأن أداء هذه النماذج في مجال الرياضيات.
من المعروف أن معيار GSM8K يستخدم على نطاق واسع لتقييم القدرة الاستدلالية للنماذج في مسائل الرياضيات في المدارس الابتدائية. على الرغم من تحسن أداء LLM على GSM8K في السنوات الأخيرة، شكك الباحثون في موثوقية هذه النتيجة. ولذلك، أجروا دراسة واسعة النطاق لاستكشاف أداء النماذج الحالية مفتوحة المصدر ومغلقة المصدر.
ومن أجل تقييم قدرة النموذج على التفكير بشكل أفضل، قدم فريق البحث اختبارًا مرجعيًا محسنًا - GSM-Symbolic. يستخدم هذا المعيار الجديد قوالب رمزية لتوليد أسئلة متنوعة، مما يسمح بتحكم أفضل في عملية التقييم وتوفير مقاييس أكثر موثوقية.
ووجدت الدراسة أن أداء LLM يتقلب بشكل ملحوظ عندما تتغير القيم العددية في المشكلة. والأمر الأكثر إثارة للاهتمام هو أن أداء النموذج ينخفض بشكل ملحوظ مع زيادة عدد المصطلحات في السؤال. ويتكهن الباحثون بأن هذا الانخفاض في الأداء يشير إلى أن حاملي شهادات الماجستير الحاليين لا يتمتعون بقدرات تفكير منطقية حقيقية، ولكنهم ببساطة يقلدون خطوات التفكير في بيانات التدريب.
وفي التجارب، انخفض أداء جميع النماذج الحديثة بنسبة تصل إلى 65% عند إضافة مصطلح واحد فقط يبدو ذا صلة. على الرغم من أن هذه المصطلحات لا علاقة لها بسلسلة الاستدلال التي تؤدي إلى الإجابة النهائية، إلا أنها لا تزال ذات تأثير كبير على أداء النموذج. بشكل عام، توفر لنا هذه الدراسة فهمًا أعمق لقدرات وقيود LLM في التفكير الرياضي.
تسليط الضوء على:
تظهر القدرة على التفكير الرياضي في LLM اختلافات واضحة في حالات المشكلة المختلفة.
مع زيادة تعقيد المشكلة، ينخفض أداء LLM بشكل ملحوظ، خاصة بعد إضافة مصطلحات إضافية.
لا تتمتع برامج LLM الحالية بقدرات تفكير منطقية حقيقية، وتعتمد بشكل أساسي على تكرار وتقليد بيانات التدريب.
يكشف هذا البحث الذي أجرته شركة Apple عن أوجه القصور في نماذج اللغات الكبيرة في التفكير الرياضي ويوفر توجيهات مهمة لتحسين النماذج المستقبلية. ومن المتوقع أن يؤدي إجراء المزيد من الأبحاث إلى تحسين قدرة التفكير المنطقي لماجستير القانون وتقريبه من المستوى المعرفي البشري. سيستمر محرر Downcodes في الاهتمام بآخر التطورات في هذا المجال.