أصدرت نوفاسكي ، فريق أبحاث في مختبر Sky Computing في جامعة كاليفورنيا ، بيركلي ، نموذج استنتاج مؤخرًا يسمى Sky-T1-32B-Preview ، والذي كان أداءً ممتازًا على معايير رئيسية متعددة ، حتى أنه يمكن مقارنته بالنسخة المبكرة من O1 من Openai . الأمر الأكثر إثارة للدهشة هو أن تكلفة تدريب هذا النموذج منخفضة للغاية ، حيث تُظهر اتجاهًا جديدًا في تنمية الذكاء الاصطناعي الفعال والاقتصادي.
Sky-T1-32B-Preview هو أول نموذج التفكير مفتوح المصدر. لا يعرض فريق Novasky النموذج نفسه فحسب ، بل يوفر أيضًا مجموعة بيانات التدريب ورمز التدريب اللازم بحيث يمكن نسخ النموذج بالكامل. وفقًا لمدونة الفريق ، "تكاليف التدريب في SKY-T1-32B Preview أقل من 450 دولارًا ، مما يثبت أنه يمكن تحقيق قدرات التفكير المتقدم بتكلفة منخفضة." يتم القيام به في الماضي. ويعزى هذا التخفيض الكبير في التكلفة بشكل أساسي إلى استخدام بيانات التدريب الاصطناعية. على سبيل المثال ، يعتمد نموذج Palmyra X004 الذي تم إصداره مؤخرًا من قِبل شركة الذكاء الاصطناعي بالكامل تقريبًا على البيانات الاصطناعية للتدريب ، بتكلفة تطوير قدرها 700000 دولار فقط.
تختلف نماذج الاستدلال عن نماذج الذكاء الاصطناعي العادي. ومع ذلك ، غالبًا ما تستغرق نماذج الاستدلال وقتًا أطول للتوصل إلى حلول ، تتراوح من ثوان إلى دقائق. ومع ذلك ، فإن موثوقيتها في المجالات مثل الفيزياء والعلوم والرياضيات تجعلها مثالية لهذه المجالات.
كشف فريق Novasky أنهم استخدموا نموذج الاستدلال QWQ-32B Preview من Alibaba لإنشاء بيانات التدريب الأولية لـ Sky-T1 ، ثم قاموا بفرز البيانات وأعادت بناء البيانات إلى نظام Openai GPT-4O-Mini. يستغرق تدريب Sky-T1 حوالي 19 ساعة على 32 مليار معلمة باستخدام 8 رفوف GPU NVIDIA H100 ، ويعكس عدد المعلمات مباشرة قدرة حل المشكلات للنموذج.
في اختبار الأداء ، تفوقت Sky-T1 على إصدار المعاينة المبكرة من O1 على Math500 (مجموعة من التحديات الرياضية "على مستوى المنافسة") وأيضًا التغلب على إصدار المعاينة من O1 على مجموعة من ألغاز الترميز من LiveCodeBench. ومع ذلك ، فإن SKY-T1 ليس جيدًا مثل إصدار معاينة O1 على GPQA-Diamond ، والذي يحتوي على الفيزياء والبيولوجيا والكيمياء التي يجب على خريجي الدكتوراه إتقانها. بالإضافة إلى ذلك ، يعد إصدار Openai's O1GA أقوى من إصدار المعاينة ، ويتوقع Openai إصدار نموذج استنتاج أفضل أداء O3 في الأسابيع المقبلة.
ومع ذلك ، قال فريق Novasky أن Sky-T1 هو مجرد نقطة انطلاق لهم لتطوير نموذج مفتوح المصدر مع إمكانيات التفكير المتقدمة. "نتطلع إلى الأمام ، سوف نركز على تطوير نماذج أكثر كفاءة ، والحفاظ على أداء قوي للاستدلال ، واستكشاف التقنيات المتقدمة لزيادة تحسين كفاءة النماذج ودقةها عند الاختبار" ، كتب الفريق في المنشور ، الخطط المثيرة.