يعد تدريب وتحسين نماذج اللغة واسعة النطاق (LLMs) من التحديات الرئيسية في مجال الذكاء الاصطناعي. لا تحتاج أساليب التدريب الفعالة إلى ضمان أداء النموذج فحسب، بل تحتاج أيضًا إلى التأكد من توافقه مع القيم الإنسانية. تم استخدام التعلم المعزز بالتغذية الراجعة البشرية (RLHF)، باعتباره طريقة فعالة للتدريب على LLM، على نطاق واسع في السنوات الأخيرة، ولكن لا تزال كفاءته وقابليته للتوسع بحاجة إلى التحسين. ولهذا الغرض، قام فريق ByteDance Doubao Big Model Team بفتح إطار عمل RLHF يسمى HybridFlow، والذي يهدف إلى حل قيود إطار عمل RLHF التقليدي وتحقيق اختراقات جديدة في تدريب LLM.
يتكون RLHF عادةً من ثلاث مراحل: أولاً، يقوم نموذج الممثل بإنشاء نص وفقًا لمطالبات الإدخال، ثم يقوم نموذج الناقد والنموذج المرجعي ونموذج المكافأة بتقييم النص الذي تم إنشاؤه وحساب القيمة المقابلة والاحتمالية المرجعية وقيمة المكافأة؛ تُستخدم نتائج التقييم لتدريب نموذج الممثل على إنشاء نص أكثر اتساقًا مع التفضيلات البشرية. عادةً ما تعتمد أطر عمل RLHF التقليدية وحدة تحكم واحدة لإدارة تدفق البيانات بالكامل، ولكن هذا غير فعال بالنسبة إلى LLM الذي يتطلب حوسبة موزعة.
يجمع إطار عمل HybridFlow بشكل مبتكر بين أوضاع وحدة التحكم الفردية ووحدات التحكم المتعددة ويفصل الحسابات المعقدة وتبعيات البيانات من خلال تصميم واجهة برمجة التطبيقات (API) متعدد الطبقات لتحقيق تمثيل مرن وتنفيذ فعال لتدفقات بيانات RLHF.
تنعكس مزايا HybridFlow بشكل أساسي في الجوانب الثلاثة التالية:
دعم مرن لخوارزميات ونماذج RLHF المتعددة: يوفر HybridFlow واجهة برمجة تطبيقات معيارية بحيث يمكن للمستخدمين تنفيذ وتوسيع خوارزميات RLHF المتنوعة بسهولة، مثل PPO وReMax وSafe-RLHF.
إعادة تنظيم فعالة لوزن النموذج: يدعم مكون 3D-HybridEngine إعادة تنظيم فعالة لوزن النموذج لنماذج الممثلين أثناء مرحلتي التدريب والتوليد، مما يقلل من تكرار الذاكرة وعبء الاتصالات.
النشر الآلي للنموذج واختيار الإستراتيجية الموازية: يمكن لمكون التعيين التلقائي تعيين النماذج تلقائيًا إلى أجهزة مختلفة بناءً على تحميل النموذج وتبعيات البيانات، واختيار أفضل إستراتيجية متوازية، وبالتالي تبسيط عملية نشر النموذج وتحسين كفاءة التدريب.
تظهر النتائج التجريبية أن إنتاجية HybridFlow تتحسن بشكل ملحوظ عند تشغيل خوارزميات RLHF المختلفة، بما يصل إلى 20.57 مرة. سيوفر المصدر المفتوح لـ HybridFlow أداة قوية للبحث والتطوير في RLHF وتعزيز تطوير تكنولوجيا LLM المستقبلية.
عنوان الورقة: https://arxiv.org/pdf/2409.19256
واختتم محرر Downcodes بما يلي: يوفر المصدر المفتوح لإطار عمل HybridFlow أفكارًا وأدوات جديدة لتدريب نماذج لغوية واسعة النطاق، ومن المتوقع أن تعمل كفاءته ومرونته على تعزيز التطوير الإضافي لتكنولوجيا LLM ويستحق الاهتمام والبحث المتعمق . ونحن نتطلع إلى رؤية المزيد من التطبيقات المبتكرة المعتمدة على HybridFlow في المستقبل.