ByteDance e Peking University constroem MegaScale: um único “cluster Wanka” para treinamento LLM
Bytedance e uma equipe de pesquisa da Universidade de Pequim publicaram um artigo sobre o arXiv, apresentando seu sistema de produção MegaScale para treinar grandes modelos de linguagem. MegaScale construiu um único cluster com mais de 10.000 GPUs e alcan
2025-02-07