A ByteDance alcançou um grande avanço em sua cooperação com a Universidade de Pequim. Construiu com sucesso um enorme cluster composto por mais de 10.000 GPUs e usou o sistema MegaScale desenvolvido de forma independente para completar o treinamento do modelo GPT-3 em apenas 1,75 dias. Essa conquista melhora significativamente a eficiência do treinamento de modelos e demonstra sua forte força no campo da computação de alto desempenho. O sistema também superou o benchmark da indústria NVIDIA Megatron-LM em termos de utilização de energia computacional, refletindo o profundo acúmulo da ByteDance em otimização de algoritmos e engenharia de sistemas.
O artigo se concentra em:
A ByteDance e a Universidade de Pequim construíram com sucesso um cluster Wanka, introduziram o sistema MegaScale e concluíram o treinamento de um modelo GPT-3 em grande escala em 1,75 dias. O sistema alcançou uma utilização de energia computacional de 55,2%, superando o NVIDIA Megatron-LM. Para melhorar a eficiência e a estabilidade, eles fizeram melhorias em algoritmos, sobreposição de comunicação, otimização do operador, etc. Atualmente, a Byte estabeleceu um cluster GPU com mais de 10.000 placas e está construindo um cluster de arquitetura Hopper em grande escala.ByteDance continua a fazer esforços no campo da IA. Sua força técnica e capacidades de engenharia no treinamento de modelos em escala ultralarga são atraentes e vale a pena esperar por seu desenvolvimento futuro. A construção bem-sucedida do cluster Wanka não representa apenas um avanço tecnológico, mas também oferece novas possibilidades e soluções mais eficientes para o treinamento de grandes modelos.