علم محرر Downcodes أن فريق Shanghai AI Lab قد فتح مشروع LLaMA الإصدار o1، وهذه أخبار مثيرة! يهدف هذا المشروع إلى إعادة إنتاج O1 الخاص بـ OpenAI، وهو عبارة عن قطعة أثرية لحل الألغاز الرياضية، وقد حقق تقدمًا كبيرًا. استخدم الفريق بمهارة التقنيات المتقدمة مثل بحث شجرة مونت كارلو والتعلم المعزز لتجاوز العديد من الحلول مغلقة المصدر في اختبار AIME2024 القياسي، مما يدل على القوة التقنية القوية وروح المصدر المفتوح. يحتوي المشروع مفتوح المصدر على مجموعات بيانات ونماذج وأكواد تدريبية مدربة مسبقًا، مما يوفر للمطورين موارد تعليمية قيمة.
قبل فترة طويلة من إصدار سلسلة o1 من OpenAI، بدأ فريق Shanghai AI Lab في استكشاف استخدام بحث شجرة مونت كارلو لتحسين القدرات الرياضية للنماذج الكبيرة. بعد إصدار o1، قام الفريق بتحديث الخوارزمية بشكل أكبر، مع التركيز على مسائل الأولمبياد الرياضي، وتطويرها كنسخة مفتوحة المصدر من مشروع OpenAI Strawberry.
من أجل تحسين أداء نموذج LLaMA في مسائل الأولمبياد الرياضي، اعتمد الفريق استراتيجية التحسين الزوجي، والتي لا تعطي النتيجة المطلقة للإجابة بشكل مباشر، ولكنها تقارن المزايا النسبية للإجابتين. ومن خلال هذا النهج، حققوا تحسينات كبيرة على أصعب معيار AIME2024. من بين 30 سؤال اختبار، حصل النموذج المحسن على 8 أسئلة بشكل صحيح، في حين أن نموذج LLaMA-3.1-8B-Instruct الأصلي حصل على سؤالين فقط بشكل صحيح. ويتجاوز هذا الإنجاز الحلول التجارية مغلقة المصدر الأخرى باستثناء o1-preview وo1-mini.
وفي نهاية شهر أكتوبر، أعلن الفريق أنه أحرز تقدمًا كبيرًا في إعادة إنتاج OpenAI o1 استنادًا إلى بنية AlphaGo Zero، مما مكّن النموذج بنجاح من اكتساب قدرات تفكير متقدمة من خلال التفاعل مع شجرة البحث أثناء عملية التعلم دون تعليق توضيحي يدوي. وفي أقل من أسبوع، أصبح المشروع مفتوح المصدر.
يتضمن المحتوى مفتوح المصدر حاليًا لإصدار LLaMA o1: مجموعات بيانات ما قبل التدريب، ونماذج ما قبل التدريب، وكود التدريب على التعلم المعزز. من بينها، تحتوي مجموعة بيانات "OpenLongCoT-Pretrain" على أكثر من 100000 من بيانات سلسلة التفكير الطويلة. تحتوي كل قطعة من البيانات على عملية تفكير رياضية كاملة، بما في ذلك محتوى التفكير ونتائج التسجيل ووصف المشكلة والإحداثيات الرسومية وعملية الحساب والاستنتاج. الاشتقاق روابط الاستدلال الكاملة، بالإضافة إلى محتوى النقد والتحقق لكل خطوة استدلالية، توفر التقييم والتوجيه لعملية الاستدلال. بعد التدريب المسبق المستمر على مجموعة البيانات هذه، يمكن للنموذج قراءة وإخراج عملية سلسلة التفكير الطويلة مثل o1.
على الرغم من أن المشروع يسمى LLaMA-O1، إلا أن نموذج التدريب المسبق المقدم رسميًا حاليًا يعتمد على Gemma2 من Google. واستنادًا إلى النموذج الذي تم تدريبه مسبقًا، يمكن للمطورين الاستمرار في إجراء تدريب التعلم المعزز. تتضمن عملية التدريب: استخدام بحث شجرة مونت كارلو لأداء التشغيل الذاتي لتوليد الخبرة؛ وتخزين الخبرة في المخزن المؤقت لتشغيل التجربة ذات الأولوية؛ وأخذ عينات من البيانات المجمعة من المخزن المؤقت للتدريب؛ يتم أيضًا استخدام بعض التقنيات الرئيسية في كود التدريب، بما في ذلك استخدام LoRA لضبط المعلمات بشكل فعال، واستخدام خوارزمية PPO كطريقة لتحسين الإستراتيجية، وتنفيذ خوارزمية GAE لحساب وظيفة الميزة، واستخدام تجربة التشغيل ذات الأولوية لتحسين التدريب. كفاءة.
ومن الجدير بالذكر أن كود LLaMA-O1 تم إصداره ضمن حساب GitHub يسمى SimpleBerry، ولا يحتوي الحساب على مقدمة خاصة ويبدو أنه غامض نسبيًا. من الحسابات الأخرى ومعلومات الموقع الرسمي المتعلقة بـ SimpleBerry، لا يمكن إلا أن نرى أن طبيعتها عبارة عن مختبر أبحاث، ولكن لم يتم الكشف عن مزيد من المعلومات حول اتجاه البحث.
بالإضافة إلى LLaMA-O1، هناك مشروع آخر متماثل لـ o1 مع تقدم عام وهو O1-Journey من فريق جامعة Shanghai Jiao Tong. أصدر الفريق تقريره المرحلي الأول في أوائل أكتوبر، حيث قدم نموذج Journey Learning المبتكر والنموذج الأول لدمج البحث والتعلم بنجاح في التفكير الرياضي. يتكون فريق التطوير الأساسي لـ O1-Journey بشكل أساسي من الطلاب الجامعيين الصغار والكبار في جامعة شنغهاي جياو تونغ، بالإضافة إلى طلاب الدكتوراه في السنة الأولى من مختبر GAIR (مختبر أبحاث الذكاء الاصطناعي التوليدي) بجامعة شنغهاي جياو تونغ ومن بينهم ليو بنغفي وياو بان، والأساتذة المشاركون في جامعة شنغهاي جياو تونغ والخريجون الحائزون على جائزة سلون لي يوانزي، وما إلى ذلك.
عنوان الورقة: https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394
جلب المصدر المفتوح لمشروع LLaMA الإصدار o1 حيوية جديدة إلى مجال حل المشكلات الرياضية بالذكاء الاصطناعي، كما زود المطورين بموارد تعليمية وبحثية قيمة. ونحن نتطلع إلى ظهور المزيد من المشاريع المماثلة مفتوحة المصدر في المستقبل لتعزيز التطوير المستمر في مجال الذكاء الاصطناعي!