Meta lança dois clusters 24K H100GPU para treinamento de Llama-3

Autor：Eve Cole Data da Última Atualização：2025-01-04 18:00:02

A Meta anunciou recentemente que construirá dois superclusters equipados com 24.000 GPUs H100 para treinar seu modelo de linguagem grande de próxima geração, Llama-3. O projeto usa rede RoCEv2 avançada e solução de armazenamento de rede NFS/FUSE da Tectonic/Hammerspace para melhorar a eficiência do treinamento e a velocidade de acesso aos dados. Espera-se que o Llama-3 esteja online no final de abril ou meados de maio e pode ser um modelo multimodal. A Meta também planeja continuar a abrir o código do modelo. Este movimento destaca a determinação e a força da Meta em continuar investindo no campo de grandes modelos de IA, e seu desenvolvimento futuro é digno de atenção.

A Meta lançou em seu site oficial dois clusters 24K H100GPU, especialmente projetados para treinar o grande modelo Llama-3. Llama-3 usa rede RoCEv2 e armazenamento de rede NFS/FUSE da Tectonic/Hammerspace. Espera-se que esteja online no final de abril ou meados de maio, possivelmente como um modelo multimodal e continue a ser de código aberto. A Meta planeja ter 600.000 H100 de capacidade computacional até o final de 2024.

O investimento em poder de computação em grande escala da Meta anuncia o desenvolvimento do treinamento de modelos de IA no futuro, e também vale a pena esperar o lançamento do Llama-3. Suas características multimodais e estratégia de código aberto terão um impacto profundo na IA. campo. O ambicioso plano de 600.000 H100 da Meta demonstra sua forte força e direção de desenvolvimento futuro no campo da inteligência artificial.