حققت ByteDance تقدمًا كبيرًا في تعاونها مع جامعة بكين، ونجحت في بناء مجموعة ضخمة تتكون من أكثر من 10000 وحدة معالجة رسوميات واستخدمت نظام MegaScale المطور بشكل مستقل لإكمال تدريب نموذج GPT-3 في 1.75 يومًا فقط. يعمل هذا الإنجاز على تحسين كفاءة تدريب النموذج بشكل كبير ويظهر قوته القوية في مجال الحوسبة عالية الأداء. كما تجاوز النظام أيضًا معيار الصناعة NVIDIA Megatron-LM من حيث استخدام الطاقة الحاسوبية، مما يعكس تراكم ByteDance العميق في تحسين الخوارزميات وهندسة النظام.
تركز المقالة على:
نجحت ByteDance وجامعة بكين في بناء مجموعة Wanka، وتقديم نظام MegaScale، وإكمال التدريب على نموذج GPT-3 واسع النطاق في 1.75 يومًا. حقق النظام استخدامًا للطاقة الحاسوبية بنسبة 55.2%، متجاوزًا NVIDIA Megatron-LM. من أجل تحسين الكفاءة والاستقرار، قاموا بإجراء تحسينات في الخوارزميات، وتداخل الاتصالات، وتحسين المشغل، وما إلى ذلك. في الوقت الحاضر، أنشأت Byte مجموعة GPU بأكثر من 10000 بطاقة وتقوم ببناء مجموعة بنية Hopper واسعة النطاق.تواصل ByteDance بذل الجهود في مجال الذكاء الاصطناعي، حيث إن قوتها التقنية وقدراتها الهندسية في تدريب النماذج واسعة النطاق للغاية ملفتة للنظر، ويستحق تطويرها المستقبلي التطلع إليه. لا يمثل البناء الناجح لمجموعة وانكا طفرة تكنولوجية فحسب، بل يوفر أيضًا إمكانيات جديدة وحلول أكثر كفاءة للتدريب على النماذج الكبيرة.