AWS は、2024 年の re:Invent カンファレンスで、Trainium2 チップに基づく Amazon EC2 Trn2 インスタンスと Trn2UltraServers、および次世代の Trainium3 AI チップを発表しました。新世代のインスタンスではパフォーマンスが大幅に向上しており、前世代の GPU ベースの EC2 インスタンスよりも価格性能比が 30 ~ 40% 高くなります。この動きは、AWS にとって AI コンピューティングの分野における重要な一歩となり、大規模な言語モデルのトレーニングとデプロイメントのためのより強力なコンピューティング機能を提供し、複数のパートナーとの協力を通じて AI テクノロジーの広範な適用と開発を促進します。効果。
2024 年の AWS re:Invent カンファレンスで、アマゾン ウェブ サービス (AWS) は、ユーザーが正式に利用できる Trainium2 チップをベースとした Amazon Elastic Compute Cloud (EC2) インスタンスの開始を発表しました。この新しいインスタンスの価格とパフォーマンスは、前世代の GPU ベースの EC2 インスタンスより 30 ~ 40% 高くなります。 「Trainium2 を利用した Amazon EC2 Trn2 インスタンスの一般提供を発表できることを嬉しく思います」と AWS CEO のマット ガーマンは述べています。
Trn2 インスタンスに加えて、AWS は Trn2UltraServers を立ち上げ、次世代 Trainium3AI チップのデモも行いました。 16 個の Trainium2 チップを搭載した Trn2 インスタンスは、最大 20.8 ペタフロップスのコンピューティング パフォーマンスを実現でき、数十億のパラメーターを含む大規模言語モデル (LLM) のトレーニングとデプロイ向けに設計されています。
Trn2UltraServers は 4 台の Trn2 サーバーを 1 つのシステムに結合し、最大 83.2 ペタフロップスのコンピューティング能力を提供して、より高いスケーラビリティを実現します。これらの UltraServers には 64 個の相互接続された Trainium2 チップがあり、トレーニングおよび推論中の顧客のコンピューティング能力のニーズに対応します。 「Trainium2 インスタンスと Trn2UltraServers のリリースにより、顧客は最も複雑な AI モデルを解決するために必要なコンピューティング能力を得ることができます」と AWS のコンピューティングおよびネットワーキング担当バイスプレジデントである David Brown 氏は述べています。
AWS は Anthropic と提携して、数十万の Trainium2 チップを使用する Project Rainier と呼ばれる大規模 AI コンピューティング クラスターを立ち上げました。このインフラストラクチャは、主力製品である Claude を Trainium2 ハードウェア上で実行するように最適化するなど、Anthropic の開発をサポートします。
さらに、Databricks と Hugging Face も AWS と協力して、Trainium の機能を活用して AI 製品のパフォーマンスとコスト効率を向上させています。 Databricks はこのハードウェアを使用して Mosaic AI プラットフォームを強化することを計画しており、Hugging Face は Trainium2 を自社の AI 開発および展開ツールに統合しています。
Trainium2 の他の顧客には、Adobe、Poolside、Qualcomm などがあります。 Garman 氏は、Adobe が Firefly 推論モデルの初期テストに Trainium2 を使用した結果、非常に満足のいく結果が得られ、大幅な節約が期待できると述べました。 「プールサイドは他の選択肢と比べて 40% の節約が見込める」と彼は付け加えた。 「クアルコムは、Trainium2 を活用して、クラウドでトレーニングしてエッジに展開できる AI システムを開発しています。」
さらに、AWS は 3 ナノメートルプロセスを使用する Trainium3 チップもプレビューしました。 Trainium3 ベースの UltraServer は 2025 年末までに発売される予定で、Trn2 UltraServers の 4 倍のパフォーマンスを提供するように設計されています。
Trainium ハードウェアの使用を最適化するために、AWS は、開発者がモデルを最適化して Trainium チップ上で最適なパフォーマンスを達成するのに役立つソフトウェア ツール スイートである Neuron SDK もリリースしました。 SDK は JAX や PyTorch などのフレームワークをサポートしているため、顧客は最小限のコード変更でソフトウェアを既存のワークフローに統合できます。
現在、Trn2 インスタンスは米国東部 (オハイオ) リージョンで利用可能ですが、将来的には他のリージョンにも拡大される予定です。 UltraServers は現在プレビュー段階です。
全体として、AWS による Trainium2 とその関連製品およびサービスの発売は、人工知能分野の急速な発展に強力な推進力をもたらし、クラウド コンピューティングと AI の分野における AWS の主導的地位をさらに強化しました。 将来的には、Trainium3 の発売により、AI コンピューティング分野におけるその利点はさらに重要になります。