علم محرر Downcodes أن باحثي Apple أطلقوا اختبارًا قياسيًا جديدًا يسمى GSM-Symbolic لقدرات التفكير الرياضي لنماذج اللغات الكبيرة (LLM). يعتمد هذا الاختبار على GSM8K وهو مصمم لإجراء تقييم أكثر شمولاً لقدرات LLM الاستدلالية، بدلاً من الاعتماد فقط على مطابقة الأنماط الاحتمالية. على الرغم من أن GSM8K يحظى بشعبية كبيرة، إلا أنه يعاني من مشاكل مثل تلوث البيانات وتقلبات الأداء. ويتغلب نظام GSM-Symbolic على هذه العيوب من خلال توليد مشكلات رياضية متنوعة من القوالب الرمزية، مما يوفر ضمانًا لإجراء تقييم أكثر دقة.
أجرى باحثو Apple مؤخرًا دراسة متعمقة لقدرات التفكير الرياضي لنماذج اللغات الكبيرة (LLM) وأطلقوا معيارًا جديدًا يسمى GSM-Symbolic.
تم تطوير هذا المعيار الجديد على أساس GSM8K، والذي يستخدم بشكل أساسي لتقييم القدرة الرياضية الأساسية. على الرغم من تحسن أداء العديد من LLMs على GSM8K، إلا أن المجتمع العلمي لا يزال لديه أسئلة حول القدرات المنطقية لهذه النماذج، معتقدًا أن مقاييس التقييم الحالية قد لا تعكس قدراتها الحقيقية بشكل كامل. لقد وجدت الأبحاث أن طلاب ماجستير القانون غالبًا ما يعتمدون على مطابقة الأنماط الاحتمالية بدلاً من التفكير المنطقي الحقيقي، مما يجعلهم حساسين جدًا للتغيرات الصغيرة في المدخلات.
في الدراسة الجديدة، استخدم الباحثون قوالب رمزية لتوليد مشاكل رياضية متنوعة توفر تقييمات أكثر موثوقية. تظهر النتائج التجريبية أن أداء LLM يتناقص بشكل ملحوظ عندما تزيد القيمة العددية أو تعقيد المشكلة. علاوة على ذلك، حتى إضافة معلومات ذات صلة ظاهرية بالمشكلة ولكنها ليست غير ذات صلة في الواقع يمكن أن تؤدي إلى انخفاض أداء النموذج بنسبة تصل إلى 65%. تؤكد هذه النتائج مرة أخرى أن LLM يعتمد بشكل أكبر على مطابقة الأنماط بدلاً من التفكير المنطقي الرسمي عند التفكير.
تحتوي مجموعة بيانات GSM8K على أكثر من 8000 مسألة رياضية على مستوى الصف الدراسي، وتثير شعبيتها العديد من المخاطر، مثل تلوث البيانات وتقلبات الأداء الناجمة عن تغييرات صغيرة في المسائل. ومن أجل التعامل مع هذه التحديات، فإن ظهور نظام GSM-Symbolic يسمح بالتحكم بفعالية في تنوع المشكلات. يقوم هذا المعيار بتقييم أكثر من 20 نموذجًا مفتوحًا ومغلقًا باستخدام 5000 عينة من 100 قالب، مما يوضح الرؤى والقيود الخاصة بقدرات التفكير الرياضي في LLM.
تظهر التجارب الأولية أن أداء النماذج المختلفة على GSM-Symbolic يختلف بشكل كبير، وأن الدقة الإجمالية أقل من الأداء المذكور على GSM8K. كما استكشفت الدراسة تأثير تغيير أسماء المتغيرات والقيم على ماجستير إدارة الأعمال، وأظهرت النتائج أن التغييرات في القيم كان لها تأثير أكبر على الأداء. بالإضافة إلى ذلك، يؤثر تعقيد المشكلة أيضًا بشكل مباشر على الدقة، حيث تؤدي المشكلات المعقدة إلى انخفاض كبير في الأداء. تشير هذه النتائج إلى أن النموذج قد يعتمد على مطابقة الأنماط أكثر من اعتماده على قدرات التفكير المنطقي الحقيقية عند التعامل مع المشكلات الرياضية.
تسلط هذه الدراسة الضوء على القيود المفروضة على تقييمات GSM8K الحالية وتقدم معيارًا جديدًا، وهو GSM-Symbolic، المصمم لتقييم قدرات التفكير الرياضي لطلاب LLM. بشكل عام، تشير النتائج إلى أن طلاب ماجستير القانون ما زالوا بحاجة إلى تحسين قدراتهم على التفكير المنطقي بشكل أكبر عند التعامل مع المشكلات المعقدة.
الورقة: https://arxiv.org/abs/2410.05229
بشكل عام، يوفر معيار GSM-Symbolic الذي اقترحته شركة Apple منظورًا جديدًا لتقييم قدرات التفكير الرياضي لنماذج اللغات الكبيرة، ويكشف أيضًا أن LLM لا يزال لديه مجال للتحسين في التفكير المنطقي، مما يمهد الطريق لتحسينات النماذج المستقبلية. ونحن نتطلع إلى مزيد من الأبحاث في المستقبل لتعزيز تطوير قدرات التفكير المنطقي في LLM.