أحدث سلسلة نماذج Tülu3 الصادرة عن معهد ألين للذكاء الاصطناعي (AI2) أحدثت اختراقات مثيرة للإعجاب في مجال نماذج اللغات مفتوحة المصدر. لا يمكن مقارنة أداء Tülu3 بالنماذج مغلقة المصدر مثل GPT-4o-mini فحسب، بل الأهم من ذلك، أنها مفتوحة المصدر تمامًا وتوفر بيانات تدريب شاملة ورموز ووصفات تدريب وأطر تقييم، وهو أمر بالغ الأهمية لتعزيز البرامج المفتوحة المصدر. نماذج المصدر تطوير تكنولوجيا التدريب له أهمية كبيرة. فهو يحل العديد من المشاكل الموجودة في التطبيق العملي لنماذج ما قبل التدريب التقليدية، مثل توليد معلومات ضارة وصعوبة اتباع التعليمات وما إلى ذلك، ويجلب إمكانيات جديدة للبحث والتطبيق في مجال الذكاء الاصطناعي.
في مجال الذكاء الاصطناعي، أصبحت تكنولوجيا ما بعد التدريب تدريجياً وسيلة مهمة لتحسين أداء النموذج. مؤخرًا، أصدر معهد ألين للذكاء الاصطناعي (AI2) سلسلة نماذج Tülu3، وهو نموذج لغة متقدم مفتوح المصدر بالكامل مع أداء مماثل للنماذج مغلقة المصدر مثل GPT-4o-mini. لا يحتوي Tülu3 على بيانات نموذجية وكود ووصفات تدريبية فحسب، بل يوفر أيضًا إطارًا للتقييم يهدف إلى تعزيز تطوير تكنولوجيا ما بعد التدريب النموذجية مفتوحة المصدر.
تقليديًا، غالبًا ما تكون النماذج المدربة مسبقًا غير فعالة في تلبية احتياجات التطبيق العملي، وقد تنتج معلومات سامة أو خطيرة، ويصعب اتباع التعليمات البشرية. ولذلك، فإن مراحل ما بعد التدريب، مثل تحسين التعليمات والتعلم بالتغذية الراجعة البشرية، لها أهمية خاصة. ومع ذلك، فإن كيفية تحسين عملية ما بعد التدريب لا تزال مشكلة فنية، خاصة عند تحسين قدرة واحدة للنموذج، فقد يؤثر ذلك على القدرات الأخرى.
ومن أجل التغلب على هذه المشكلة، قامت الشركات الكبرى بزيادة تعقيد أساليب ما بعد التدريب، وتجربة جولات متعددة من التدريب والجمع بين البيانات المصطنعة والتركيبية، ولكن معظم الأساليب لا تزال مغلقة المصدر. في المقابل، أدى إصدار سلسلة Tülu3 إلى كسر فجوة الأداء بين النماذج مفتوحة المصدر والنماذج مغلقة المصدر وجلب أفكارًا تدريبية جديدة.
تنقسم عملية التدريب في Tülu3 إلى أربع مراحل: بناء البيانات، والضبط الدقيق تحت الإشراف، وتعديل التفضيلات، والتعلم المعزز بمكافآت يمكن التحقق منها.
أولاً، يركز الباحثون على المهارات الأساسية للنموذج وبناء بيانات التدريب من خلال الجمع بين البيانات الاصطناعية والبيانات الاصطناعية.
ثانيًا، يتم إجراء الضبط الدقيق تحت الإشراف لضمان أداء النموذج بالإضافة إلى النماذج الحديثة الأخرى في مهارات محددة.
ثالثًا، يتم استخدام طريقة تحسين التفضيل المباشر لزيادة تحسين الأداء العام للنموذج. أخيرًا، تم تقديم الطريقة المبتكرة للتعلم المعزز للمكافأة التي يمكن التحقق منها لمساعدة النموذج على إكمال المهام بشكل أفضل مع نتائج يمكن التحقق منها.
تم بناء نموذج Tülu3 على أساس Llama3.1 ويتمتع بأداء ممتاز في مجالات مثل التفكير والرياضيات والبرمجة ومتابعة التعليمات. بالمقارنة مع النماذج الأخرى مفتوحة المصدر ومغلقة المصدر، فإن قدرات Tülu3 الشاملة تؤدي أداءً جيدًا في معايير متعددة، مما يمثل تقدمًا كبيرًا في تكنولوجيا التدريب بعد المصدر المفتوح.
رابط الورقة: https://allenai.org/papers/tulu-3-report.pdf
العرض التوضيحي:https://playground.allenai.org/
تسليط الضوء على:
Tülu3 هو نموذج لغة مفتوح المصدر تم إطلاقه بواسطة AI2، والذي يتمتع بأداء مماثل للنماذج مغلقة المصدر مثل GPT-4o-mini.
تعد تكنولوجيا ما بعد التدريب أمرًا بالغ الأهمية ويمكنها تحسين أداء النموذج بشكل فعال في التطبيقات العملية.
تنقسم عملية التدريب المبتكرة لـ Tülu3 إلى أربع مراحل: بناء البيانات، والضبط الدقيق الخاضع للإشراف، وتعديل التفضيلات، والتعلم المعزز للمكافأة الذي يمكن التحقق منه.
تسمح طبيعة Tülu3 مفتوحة المصدر للباحثين بدراسة أساليب التدريب بعمق وإجراء تحسينات وابتكارات على هذا الأساس، مما سيعزز بشكل كبير تطوير نماذج اللغات مفتوحة المصدر. يشير أدائها الممتاز في العديد من المجالات أيضًا إلى أن النموذج مفتوح المصدر سيلعب دورًا أكثر أهمية في المستقبل. ومن المتوقع أن يتمكن Tülu3 من تعزيز تعميم وتطبيق تكنولوجيا الذكاء الاصطناعي.