أصدرت فرق الأبحاث من جامعة ستانفورد وجامعة واشنطن مؤخرًا طريقة تدريب من الذكاء الاصطناعي المسمى S1. على عكس الاعتماد السابق على قوة الحوسبة الضخمة أو الخوارزميات المعقدة ، تحقق طريقة S1 بذكاء قفزة أداء من خلال التحكم في تخصيص موارد الحوسبة للنموذج أثناء الاختبار.
قامت طريقة S1 أولاً ببناء مجموعة بيانات صغيرة تسمى S1K والتي تحتوي على 1000 مشكلة استنتاج عالية الجودة. معايير الفحص لمجموعة البيانات هذه صارمة للغاية ويجب أن تفي بالشروط الثلاثة ذات الصعوبة العالية والتنوع القوي والجودة الممتازة في نفس الوقت. تحقق فريق البحث من أهمية هذه المعايير الثلاثة من خلال تجارب الاجتثاث التفصيلية ، وأظهرت النتائج أن الاختيار العشوائي أو التركيز على معايير واحدة سيؤدي إلى انخفاض كبير في الأداء. تجدر الإشارة إلى أنه حتى لو تم تدريبها باستخدام مجموعة Superset التي تحتوي على 59000 عينة ، فإن تأثيرها أقل بكثير من تأثير 1000 عينة تم اختيارها بعناية ، مما يبرز أهمية اختيار البيانات.
بعد اكتمال التدريب النموذجي ، استخدم الباحثون تقنية تسمى "ميزانية إلزامية" للتحكم في مقدار الحسابات أثناء الاختبار. ببساطة ، تمدد هذه الطريقة وقت تفكير النموذج من خلال إنهاء عملية تفكير النموذج بالقوة أو إضافة تعليمات "الانتظار" ، وبالتالي توجيه النموذج لمزيد من الاستكشاف والتحقق المتعمق. وبهذه الطريقة ، يمكن للنموذج التحقق مرارًا وتكرارًا خطوات الاستدلال وتصحيح الأخطاء بشكل فعال.
تُظهر النتائج التجريبية أنه من خلال ضبط مجموعة بيانات S1K ودعم التكنولوجيا "الإلزامية للميزانية" ، تجاوز أداء طراز S1-32B في المشكلات الرياضية على مستوى المنافسة نموذج O1-Preview من Openai بنسبة تصل إلى 27 ٪. الأمر الأكثر إثارة للدهشة هو أنه من خلال التحجيم "الإلزامي للميزانية" ، أظهر نموذج S1-32B أيضًا قدرة التعميم خارج مستوى التدريب الخاص به ، وارتفعت درجاته على مجموعة اختبار AIME24 من 50 ٪ إلى 57 ٪.
المساهمة الأساسية لهذه الدراسة هي أنها توفر طريقة بسيطة وفعالة لإنشاء مجموعات البيانات مع إمكانات استنتاج عالية وتحديد الأداء عند الاختبار. استنادًا إلى ذلك ، أنشأ فريق البحث طراز S1-32B ، الذي يكون أدائه مماثل أو حتى يتجاوز نموذج المصدر المغلق ، وفي الوقت نفسه يحقق المصدر المفتوح وكفاءة العينة العالية. الكود والنموذج والبيانات للدراسة مفتوحة من مصادر على جيثب.
أجرى الباحثون أيضًا تجارب الاجتثاث المتعمقة على التفاصيل الدقيقة للبيانات وتقنية التحجيم أثناء الاختبار. على جانب البيانات ، وجدوا أنه من الأهمية بمكان النظر في الصعوبة والتنوع والجودة في نفس الوقت. من حيث التحجيم في وقت الاختبار ، يُظهر النهج "الإلزامي للميزانية" تحسينات ممتازة في الأداء. تستكشف الدراسة أيضًا طريقتين مختلفتين ، التحجيم المتوازي والتوسيع المتسلسل ، وتقدم تقنيات متقدمة مثل Rebase ، مما يوفر مصدر إلهام مهم لاتجاهات البحث المستقبلية.
لا تجلب هذه الدراسة فكرة جديدة منخفضة التكلفة وعالية الكفاءة إلى مجال تدريب الذكاء الاصطناعي ، ولكن أيضًا تضع أساسًا متينًا لمجموعة واسعة من تطبيقات الذكاء الاصطناعي.
عنوان الورق: https://arxiv.org/pdf/2501.19393
توضح هذه الدراسة أنه من خلال بناء مجموعة البيانات الدقيقة واختبار الوقت لإدارة موارد الحوسبة ، يمكن تحسين قدرات الاستدلال لنماذج الذكاء الاصطناعي بشكل كبير ، مما يوفر اتجاهات جديدة لتطوير الذكاء الاصطناعي في المستقبل.