ByteDance は、北京大学との協力により、10,000 個を超える GPU で構成される巨大なクラスターの構築に成功し、独自に開発した MegaScale システムを使用して、GPT-3 モデルのトレーニングをわずか 1.75 日で完了することに成功しました。この成果により、モデルの学習効率が大幅に向上し、ハイパフォーマンスコンピューティングの分野で高い強みを発揮します。また、このシステムは、アルゴリズムの最適化とシステム エンジニアリングにおける ByteDance の深い蓄積を反映して、コンピューティング能力の利用に関して業界のベンチマークである NVIDIA Megatron-LM を上回りました。
この記事では次の点に焦点を当てています。
ByteDance と北京大学は、Wanka クラスターの構築、MegaScale システムの導入に成功し、大規模 GPT-3 モデルのトレーニングを 1.75 日で完了しました。このシステムは、NVIDIA Megatron-LM を上回る 55.2% の計算能力利用率を達成しました。効率と安定性を向上させるために、アルゴリズム、通信の重複、オペレータの最適化などの改善が行われています。現在、Byte は 10,000 枚を超えるカードを備えた GPU クラスターを確立し、大規模なホッパー アーキテクチャ クラスターを構築しています。AI分野での取り組みを続けるByteDanceの技術力と超大規模モデル学習のエンジニアリング能力には目を見張るものがあり、今後の発展が期待されます。 Wanka クラスターの構築の成功は、技術的なブレークスルーを意味するだけでなく、大規模なモデルのトレーニングに新たな可能性とより効率的なソリューションを提供します。