تم إصدار النموذج الرياضي Tongyi Qianwen Qwen2 Math Demo، الإصدار 72B يتفوق على GPT-4

الكاتب：Eve Cole وقت التحديث：2024-12-22 14:16:01

أصدر فريق Alibaba Tongyi Qianwen النموذج الرياضي المذهل Qwen2-Math، حيث تجاوز أداؤه GPT-4 في العديد من الاختبارات المعيارية، بل وتجاوز إصدار المعلمة 72B من نموذج NuminaMath مفتوح المصدر. لا يستطيع هذا النموذج التعامل مع المسائل الرياضية التي يتم إدخالها عن طريق النص فحسب، بل يمكنه أيضًا التعرف على الصيغ في الصور ولقطات الشاشة، مما يجعله أداة مساعدة قوية لتعلم الرياضيات. توفر الإصدارات المختلفة (72B، و7B، و1.5B) خيارات لتلبية الاحتياجات المختلفة، مما يوضح الأداء القوي والقدرة على التكيف.

أصدر فريق Tongyi Qianwen التابع لشركة Alibaba خبرًا كبيرًا آخر! لقد أصدروا للتو نموذج Qwen2Math التجريبي، وهو مجرد وحش صغير، حتى GPT-4 يُداس تحت قدميه.

لا يستطيع هذا النموذج التعامل مع المشكلات الرياضية لإدخال النص فحسب، بل يمكنه أيضًا فهم الصيغ في الصور ولقطات الشاشة. تخيل أنك تلتقط صورة لعملية حسابية ويمكن أن تعطيك الإجابة، إنها مجرد أداة لحل المشكلات في صف الرياضيات (بالطبع، نحن لا نؤيد الغش)!

تم إطلاق Qwen2-Math في ثلاثة إصدارات: 72B و7B و1.5B. من بينها، الإصدار 72B هو ببساطة عبقري رياضي، حيث سجل في الواقع 7 نقاط أكثر من GPT-4 في مجموعة بيانات MATH، بزيادة قدرها 9.6%. هذا وكأنك حصلت على 145 نقطة في اختبار الرياضيات لامتحان القبول بالكلية، لكن الطالب الأول الذي بجانبك حصل على 132 نقطة فقط.

والأكثر إثارة للدهشة هو أن الإصدار 7B يستخدم أقل من عُشر المعلمات، متجاوزًا النموذج الرياضي مفتوح المصدر 72B NuminaMath. كما تعلمون، NuminaMath هو النموذج الذي فاز بالجائزة في أول AIMO في العالم، وقد تم تقديم الجائزة شخصيًا من قبل Terence Tao، أفضل شخصية في عالم الرياضيات.

أعلن Lin Junyang، كبير خبراء الخوارزميات في Alibaba، بحماس أنهم حولوا نموذج Qwen2 إلى أستاذ رياضيات. كيف فعلوا ذلك؟ لقد استخدموا ملحقًا رياضيًا خاصًا للدماغ - مجموعة مصممة بعناية خاصة بالرياضيات. يحتوي ملحق الدماغ هذا على عدد كبير من النصوص والكتب والأكواد وأسئلة الامتحانات عالية الجودة عبر الإنترنت وحتى أسئلة الرياضيات التي تم تجميعها بواسطة نموذج Qwen2.

وكانت النتيجة في مجموعات اختبار الرياضيات الكلاسيكية مثل GSM8K وMATH، حيث ترك Qwen2-Math-72B خلفه 405B Llama-3.1. مجموعات الاختبار هذه ليست مزحة، فهي تحتوي على مسائل رياضية مختلفة مثل الجبر والهندسة والاحتمالات ونظرية الأعداد.

ليس هذا فحسب، فقد تحدى Qwen2-Math أيضًا مجموعة البيانات الصينية CMATH وأسئلة امتحان القبول بالجامعات. في مجموعة البيانات الصينية، حتى الإصدار 1.5B يمكنه التغلب على 70B Llama3.1. علاوة على ذلك، بغض النظر عن الإصدار، مقارنة بالنموذج الأساسي Qwen2 بنفس المقياس، فقد تم تحسين الأداء بشكل ملحوظ.

يبدو أن Tongyi Qianwen سأل حقًا عبقري الرياضيات هذه المرة! هل يمكننا أن نسأله عند حل مسائل الرياضيات في المستقبل؟ لكن تذكر، هذه مجرد أداة، لا تنخدع بذكائها، لا تزال بحاجة إلى التدرب مهارات الرياضيات الخاصة بك!

عنوان التجربة عبر الإنترنت: https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo

يمثل ظهور Qwen2-Math تقدمًا كبيرًا في النماذج اللغوية واسعة النطاق في مجال الرياضيات. على الرغم من أنها أداة قوية، إلا أنه من المهم تطوير قدراتك الرياضية الخاصة وعدم الاعتماد أبدًا على الأداة وتجاهل عملية التعلم. ونحن نتطلع إلى أن تتمكن Qwen2-Math من لعب دور في المزيد من المجالات في المستقبل، مما يوفر المزيد من الراحة للتعلم والبحث العلمي.