A AWS lançou instâncias Amazon EC2 Trn2 e Trn2UltraServers baseados em chips Trainium2 na conferência re:Invent de 2024, bem como o chip Trainium3 AI de próxima geração. A nova geração de instâncias melhorou significativamente o desempenho e a relação preço-desempenho é 30-40% maior do que a geração anterior de instâncias EC2 baseadas em GPU. Esta mudança marca um passo importante para a AWS no campo da computação de IA, fornecendo recursos de computação mais poderosos para o treinamento e implantação de grandes modelos de linguagem e promovendo a ampla aplicação e desenvolvimento de tecnologia de IA por meio da cooperação com vários parceiros. eficácia.
Na conferência AWS re:Invent de 2024, a Amazon Web Services (AWS) anunciou o lançamento de instâncias Amazon Elastic Compute Cloud (EC2) baseadas em chips Trainium2, que estão oficialmente disponíveis para os usuários. O preço e o desempenho desta nova instância são 30-40% superiores aos da geração anterior de instâncias EC2 baseadas em GPU. “Tenho o prazer de anunciar a disponibilidade geral das instâncias Amazon EC2 Trn2 com tecnologia Trainium2”, disse Matt Garman, CEO da AWS.
Além das instâncias Trn2, a AWS também lançou o Trn2UltraServers e demonstrou a próxima geração do chip Trainium3AI. Equipadas com 16 chips Trainium2, as instâncias Trn2 são capazes de fornecer até 20,8 petaflops de desempenho computacional e são projetadas para treinamento e implantação de grandes modelos de linguagem (LLMs) com bilhões de parâmetros.
Trn2UltraServers combina quatro servidores Trn2 em um sistema, fornecendo até 83,2 petaflops de poder de computação para alcançar maior escalabilidade. Esses UltraServers possuem 64 chips Trainium2 interconectados para atender às necessidades de potência computacional dos clientes durante treinamento e inferência. “O lançamento das instâncias Trainium2 e Trn2UltraServers oferece aos clientes o poder computacional necessário para resolver os modelos de IA mais complexos”, disse David Brown, vice-presidente de Computação e Rede da AWS.
A AWS fez parceria com a Anthropic para lançar um cluster de computação de IA em grande escala chamado Projeto Rainier, usando centenas de milhares de chips Trainium2. Esta infraestrutura apoiará o desenvolvimento da Anthropic, incluindo a otimização de seu principal produto, Claude, para rodar em hardware Trainium2.
Além disso, Databricks e Hugging Face também estão trabalhando com a AWS para aproveitar os recursos do Trainium para melhorar o desempenho e a eficiência de custos de seus produtos de IA. A Databricks planeja usar o hardware para aprimorar sua plataforma Mosaic AI, enquanto a Hugging Face integra o Trainium2 em suas ferramentas de desenvolvimento e implantação de IA.
Outros clientes do Trainium2 incluem Adobe, Poolside e Qualcomm. Garman mencionou que depois que a Adobe usou o Trainium2 para os primeiros testes do modelo de inferência Firefly, os resultados foram muito satisfatórios e espera-se uma grande economia. “A Poolside espera economizar 40% em comparação com outras opções”, acrescentou. “A Qualcomm está aproveitando o Trainium2 para desenvolver sistemas de IA que podem ser treinados na nuvem e implantados na borda.”
Além disso, a AWS também apresentou uma prévia de seu chip Trainium3, que usa um processo de 3 nanômetros. Espera-se que os UltraServers baseados em Trainium3 sejam lançados até o final de 2025 e sejam projetados para fornecer desempenho quatro vezes maior do que os UltraServers Trn2.
Para otimizar o uso do hardware Trainium, a AWS também lançou o Neuron SDK, um conjunto de ferramentas de software que ajuda os desenvolvedores a otimizar modelos para obter desempenho ideal em chips Trainium. O SDK oferece suporte a estruturas como JAX e PyTorch, permitindo que os clientes integrem o software aos fluxos de trabalho existentes com modificações mínimas de código.
Atualmente, as instâncias Trn2 estão disponíveis na região Leste dos EUA (Ohio) e serão expandidas para outras regiões no futuro. UltraServers está atualmente em versão prévia.
Em suma, o lançamento do Trainium2 e dos seus produtos e serviços relacionados pela AWS proporcionou um forte impulso para o rápido desenvolvimento do campo da inteligência artificial e consolidou ainda mais a posição de liderança da AWS nas áreas de computação em nuvem e IA. No futuro, com o lançamento do Trainium3, as suas vantagens no domínio da computação de IA serão ainda mais significativas.