في الآونة الأخيرة ، قام باحثون من جامعة ستانفورد وجامعة واشنطن بنجاح بتدريب نموذج استدلال لمنظمة العفو الدولية يسمى S1 ، والذي يكلف 50 دولارًا فقط. إن أداء النموذج في اختبار القدرة الرياضية والبرمجة مماثلة لنموذج O1 Openai ونموذج Deepseek R1. أثارت هذه النتيجة تفكيرًا جديدًا في تسويق نماذج الذكاء الاصطناعي وتسبب أيضًا في مخاوف بين مختبرات الذكاء الاصطناعى الكبيرة.
قام فريق البحث باستخراج إمكانات الاستدلال المطلوبة من النموذج الأساسي الجاهز من خلال تقنية التقطير وتدريبه على استخدام نموذج Gemini2.0 Flash Thinking التجريبي من Google. هذه العملية ليست رخيصة فحسب ، بل هي أيضًا تدريب سريع.
ومع ذلك ، فإن مختبرات الذكاء الاصطناعى الكبيرة غير راضية عن ظاهرة نماذج النسخ المتماثل منخفضة التكلفة. تخطط Meta و Google و Microsoft لاستثمار مئات المليارات من الدولارات في العامين المقبلين لتدريب نماذج الذكاء الاصطناعى من الجيل التالي لتوحيد موقعها في السوق.
تُظهر نتائج البحث في S1 إمكانية تحقيق أداء قوي للاستدلال من خلال مجموعات بيانات صغيرة نسبيًا وأساليب صياغة خاضعة للإشراف ، والتي توفر أيضًا اتجاهات جديدة لأبحاث الذكاء الاصطناعي في المستقبل.
ورقة: https://arxiv.org/pdf/2501.19393
الكود: https://github.com/simplescaling/s1
النقاط الرئيسية:
تكلفة التدريب لنموذج S1 أقل من 50 دولارًا أمريكيًا ، وأدائه مماثل لتلك الموجودة في نماذج الاستدلال العليا.
من خلال تكنولوجيا التقطير ، يستخلص فريق البحث إمكانيات التفكير من النماذج الجاهزة ، وعملية التدريب سريعة وفعالة.
أعربت مختبرات الذكاء الاصطناعى الكبيرة عن مخاوفها بشأن وضع نماذج النسخ المتماثل منخفضة التكلفة ، وستركز الاستثمارات على البنية التحتية لمنظمة العفو الدولية في المستقبل.