ByteDance a réalisé une avancée majeure dans sa coopération avec l'Université de Pékin : il a réussi à construire un énorme cluster composé de plus de 10 000 GPU et a utilisé le système MegaScale développé de manière indépendante pour terminer la formation du modèle GPT-3 en seulement 1,75 jour. Cette réalisation améliore considérablement l’efficacité de la formation des modèles et démontre sa forte force dans le domaine du calcul haute performance. Le système a également dépassé la référence du secteur NVIDIA Megatron-LM en termes d’utilisation de la puissance de calcul, reflétant la profonde accumulation de ByteDance dans l’optimisation des algorithmes et l’ingénierie système.
L’article se concentre sur :
ByteDance et l'Université de Pékin ont construit avec succès un cluster Wanka, introduit le système MegaScale et terminé la formation d'un modèle GPT-3 à grande échelle en 1,75 jours. Le système a atteint une utilisation de la puissance de calcul de 55,2 %, dépassant NVIDIA Megatron-LM. Afin d'améliorer l'efficacité et la stabilité, ils ont apporté des améliorations aux algorithmes, au chevauchement des communications, à l'optimisation des opérateurs, etc. À l'heure actuelle, Byte a établi un cluster GPU avec plus de 10 000 cartes et construit un cluster d'architecture Hopper à grande échelle.ByteDance continue de déployer des efforts dans le domaine de l'IA. Sa force technique et ses capacités d'ingénierie en matière de formation de modèles à très grande échelle sont accrocheuses et son développement futur mérite d'être attendu. La construction réussie du cluster Wanka représente non seulement une avancée technologique, mais offre également de nouvelles possibilités et des solutions plus efficaces pour la formation de grands modèles.