A NVIDIA coopera com a XAI para lançar oficialmente o cluster de treinamento de IA mais forte do mundo, que consiste em 100.000 GPUs da NVIDIA Hopper e está planejado para expandir para 200.000 no futuro. O Colossus é usado principalmente para treinar modelos de idiomas em larga escala do XAI e fornece serviços de chatbot para usuários do XPREMium. Sua velocidade de construção eficiente é impressionante e concluída em apenas 122 dias, refletindo os resultados de tecnologia avançada e colaboração eficiente da equipe. O desempenho poderoso de Colossus é suportado pela plataforma de rede Ethernet NVIDIA Spectrum-X Ethernet, que fornece largura de banda de até 400 Gbps, melhora significativamente as taxas de transmissão de dados e se concentra no desenvolvimento sustentável e reduz o consumo de energia nos data centers.
Hoje, a NVIDIA anunciou que o cluster do Supercomputer de Colossus criado em colaboração com Xai foi lançado oficialmente.
A razão pela qual esse gigante atingiu essa escala se deve ao apoio da plataforma NVIDIA Spectrum-X Ethernet. Esta plataforma foi projetada especificamente para fábricas de IA multi-inquilinos e em escala ultra-grande e pode obter acesso direto à memória direta através da Ethernet padrão, proporcionando excelente desempenho.
O Colossus é usado principalmente para treinar a série Grok de grandes modelos de idiomas da XAI e também fornece serviços de chatbot para usuários premium x. O que é ainda mais emocionante é que Xai está planejando dobrar o tamanho do Colossus, que atingirá 200.000 GPUs da NVIDIA Hopper até então.
Gilad Shainer, vice -presidente sênior da NVIDIA, disse que a IA se tornou um requisito essencial para todos os setores; portanto, os requisitos de desempenho, segurança, escalabilidade e eficiência de custos também estão aumentando. O surgimento da plataforma Spectrum-X oferece aos inovadores como Xai com recursos mais rápidos de processamento, análise e execução de dados, acelerando assim o desenvolvimento, a implantação e o tempo para o mercado de soluções de IA.
Elon Musk também elogiou isso, chamando Colossus de sistema de treinamento mais poderoso do mundo, elogiando os esforços da equipe XAI, a Nvidia e seus numerosos parceiros. Vale a pena mencionar que o processo de construção do Colossus é bastante eficiente e leva apenas 122 dias para ser concluído. Todo o processo levou apenas 19 dias desde a entrada do primeiro rack até o início do treinamento.
Com o suporte desse supercomputador, a plataforma Spectrum-X pode fornecer largura de banda de até 400 Gbps, melhorando significativamente as taxas de transferência de dados e reduzindo a latência. Esse recurso é crucial para empresas que requerem processamento de dados rápido e análise em tempo real. Além disso, o Spectrum-X também é otimizado para suportar aplicativos de IA, tornando o roteamento de dados e o gerenciamento mais inteligente, melhorando assim o desempenho geral do sistema.
A arquitetura Colossus foi projetada para escalar com eficiência para lidar com a enorme quantidade de dados gerados por aplicações modernas. Enquanto isso, o Spectrum-X também se concentra no desenvolvimento sustentável, esforçando-se para reduzir o consumo de energia em data centers, mantendo o alto desempenho e ajuda as organizações a reduzir sua pegada de carbono.
Pontos -chave:
O Supercomputador de Colossus consiste em 100.000 GPUs da NVIDIA Hopper, está treinando grandes modelos de idiomas e planeja expandir para 200.000 GPUs.
A plataforma de rede Spectrum-X fornece largura de banda de até 400 Gbps, otimizando os recursos de transmissão de dados e análise em tempo real.
A plataforma se concentra na sustentabilidade e visa reduzir o consumo de energia em data centers, mantendo o alto desempenho.
O lançamento do Colossus marca um novo marco no poder de computação de IA, e seus conceitos de design eficiente, escalável e sustentável fornecem novas direções para o desenvolvimento futuro da IA. A colaboração entre Xai e Nvidia também injetou forte impulso na inovação no campo da IA.