AWS는 2024 re:Invent 컨퍼런스에서 Trainium2 칩을 기반으로 하는 Amazon EC2 Trn2 인스턴스 및 Trn2UltraServer와 차세대 Trainium3 AI 칩을 출시했습니다. 차세대 인스턴스는 성능이 크게 향상되었으며, 가격 대비 성능 비율은 이전 세대 GPU 기반 EC2 인스턴스보다 30~40% 더 높습니다. 이러한 움직임은 AI 컴퓨팅 분야에서 AWS의 중요한 단계로, 대규모 언어 모델의 훈련 및 배포를 위한 보다 강력한 컴퓨팅 기능을 제공하고 여러 파트너와의 협력을 통해 AI 기술의 광범위한 적용 및 개발을 촉진합니다. 유효성.
2024년 AWS re:Invent 컨퍼런스에서 Amazon Web Services(AWS)는 사용자에게 공식적으로 제공되는 Trainium2 칩을 기반으로 하는 Amazon Elastic Compute Cloud(EC2) 인스턴스의 출시를 발표했습니다. 이 새로운 인스턴스의 가격과 성능은 이전 세대의 GPU 기반 EC2 인스턴스보다 30~40% 더 높습니다. AWS CEO Matt Garman은 "Trainium2 기반 Amazon EC2 Trn2 인스턴스의 일반 출시를 발표하게 되어 기쁘게 생각합니다."라고 말했습니다.
Trn2 인스턴스 외에도 AWS는 Trn2UltraServers도 출시하고 차세대 Trainium3AI 칩을 시연했습니다. 16개의 Trainium2 칩이 장착된 Trn2 인스턴스는 최대 20.8페타플롭스의 컴퓨팅 성능을 제공할 수 있으며 수십억 개의 매개변수가 포함된 대규모 언어 모델(LLM)을 훈련 및 배포하도록 설계되었습니다.
Trn2UltraServers는 4개의 Trn2 서버를 하나의 시스템으로 결합하여 최대 83.2페타플롭스의 컴퓨팅 성능을 제공하여 더 높은 확장성을 달성합니다. 이러한 UltraServer에는 교육 및 추론 중에 고객의 컴퓨팅 성능 요구 사항을 충족하기 위해 상호 연결된 64개의 Trainium2 칩이 있습니다. AWS의 컴퓨팅 및 네트워킹 담당 부사장인 David Brown은 "Trainium2 인스턴스와 Trn2UltraServers의 출시는 고객에게 가장 복잡한 AI 모델을 해결하는 데 필요한 컴퓨팅 성능을 제공합니다."라고 말했습니다.
AWS는 Anthropic과 제휴하여 수십만 개의 Trainium2 칩을 사용하는 Project Rainier라는 대규모 AI 컴퓨팅 클러스터를 시작했습니다. 이 인프라는 Trainium2 하드웨어에서 실행되는 주력 제품인 Claude의 최적화를 포함하여 Anthropic의 개발을 지원할 것입니다.
또한 Databricks와 Hugging Face도 AWS와 협력하여 Trainium의 기능을 활용하여 AI 제품의 성능과 비용 효율성을 개선하고 있습니다. Databricks는 하드웨어를 사용하여 모자이크 AI 플랫폼을 향상시킬 계획이며, Hugging Face는 Trainium2를 AI 개발 및 배포 도구에 통합할 계획입니다.
다른 Trainium2 고객으로는 Adobe, Poolside 및 Qualcomm이 있습니다. Garman은 Adobe가 Firefly 추론 모델의 초기 테스트를 위해 Trainium2를 사용한 후 결과가 매우 만족스러웠으며 많은 비용 절감이 예상된다고 언급했습니다. “풀사이드는 다른 옵션에 비해 40%를 절약할 것으로 기대합니다.”라고 그는 덧붙였습니다. "Qualcomm은 Trainium2를 활용하여 클라우드에서 훈련하고 엣지에 배포할 수 있는 AI 시스템을 개발하고 있습니다."
또한 AWS는 3나노미터 공정을 사용하는 Trainium3 칩도 미리 선보였습니다. Trainium3 기반 UltraServer는 2025년 말 출시될 예정이며 Trn2 UltraServer보다 4배 더 높은 성능을 제공하도록 설계되었습니다.
Trainium 하드웨어 사용을 최적화하기 위해 AWS는 개발자가 Trainium 칩에서 최적의 성능을 달성하도록 모델을 최적화하는 데 도움이 되는 소프트웨어 도구 제품군인 Neuron SDK도 출시했습니다. SDK는 JAX 및 PyTorch와 같은 프레임워크를 지원하므로 고객은 최소한의 코드 수정만으로 소프트웨어를 기존 워크플로우에 통합할 수 있습니다.
현재 Trn2 인스턴스는 미국 동부(오하이오) 리전에서 사용할 수 있으며 향후 다른 리전으로 확장될 예정입니다. UltraServers는 현재 미리 보기 상태입니다.
전체적으로, AWS의 Trainium2 및 관련 제품과 서비스의 출시는 인공 지능 분야의 급속한 발전에 강력한 추진력을 제공했으며 클라우드 컴퓨팅 및 AI 분야에서 AWS의 선도적인 위치를 더욱 공고히 했습니다. 앞으로 Trainium3의 출시로 AI 컴퓨팅 분야에서의 이점은 더욱 커질 것입니다.