AWS stellte auf der re:Invent-Konferenz 2024 Amazon EC2 Trn2-Instanzen und Trn2UltraServer auf Basis von Trainium2-Chips sowie den Trainium3-KI-Chip der nächsten Generation vor. Die neue Instanzengeneration weist eine deutlich verbesserte Leistung auf und das Preis-Leistungs-Verhältnis ist 30–40 % höher als bei der vorherigen Generation GPU-basierter EC2-Instanzen. Dieser Schritt markiert einen wichtigen Schritt für AWS im Bereich KI-Computing, da er leistungsfähigere Rechenfunktionen für das Training und den Einsatz großer Sprachmodelle bereitstellt und die weit verbreitete Anwendung und Entwicklung der KI-Technologie durch die Zusammenarbeit mit mehreren Partnern fördert. Wirksamkeit.
Auf der AWS re:Invent-Konferenz 2024 kündigte Amazon Web Services (AWS) die Einführung von Amazon Elastic Compute Cloud (EC2)-Instanzen auf Basis von Trainium2-Chips an, die Benutzern offiziell zur Verfügung stehen. Der Preis und die Leistung dieser neuen Instanz sind 30–40 % höher als die der vorherigen Generation GPU-basierter EC2-Instanzen. „Ich freue mich, die allgemeine Verfügbarkeit von Trainium2-basierten Amazon EC2 Trn2-Instanzen bekannt geben zu können“, sagte AWS-CEO Matt Garman.
Zusätzlich zu Trn2-Instanzen brachte AWS auch Trn2UltraServer auf den Markt und demonstrierte den Trainium3AI-Chip der nächsten Generation. Ausgestattet mit 16 Trainium2-Chips können Trn2-Instanzen eine Rechenleistung von bis zu 20,8 Petaflops liefern und sind für das Training und den Einsatz großer Sprachmodelle (LLMs) mit Milliarden von Parametern konzipiert.
Trn2UltraServers vereint vier Trn2-Server in einem System und stellt bis zu 83,2 Petaflops Rechenleistung bereit, um eine höhere Skalierbarkeit zu erreichen. Diese UltraServer verfügen über 64 miteinander verbundene Trainium2-Chips, um den Rechenleistungsbedarf der Kunden während des Trainings und der Inferenz zu decken. „Die Einführung von Trainium2-Instanzen und Trn2UltraServers gibt Kunden die Rechenleistung, die sie zum Lösen der komplexesten KI-Modelle benötigen“, sagte David Brown, Vizepräsident für Compute and Networking bei AWS.
AWS hat sich mit Anthropic zusammengetan, um einen großen KI-Computing-Cluster namens Project Rainier zu starten, der Hunderttausende Trainium2-Chips verwendet. Diese Infrastruktur wird die Entwicklung von Anthropic unterstützen, einschließlich der Optimierung seines Flaggschiffprodukts Claude für die Ausführung auf Trainium2-Hardware.
Darüber hinaus arbeiten Databricks und Hugging Face auch mit AWS zusammen, um die Fähigkeiten von Trainium zu nutzen und die Leistung und Kosteneffizienz ihrer KI-Produkte zu verbessern. Databricks plant, die Hardware zur Verbesserung seiner Mosaik-KI-Plattform zu nutzen, während Hugging Face Trainium2 in seine KI-Entwicklungs- und Bereitstellungstools integriert.
Weitere Trainium2-Kunden sind Adobe, Poolside und Qualcomm. Garman erwähnte, dass die Ergebnisse nach der Verwendung von Trainium2 durch Adobe für frühe Tests des Firefly-Inferenzmodells sehr zufriedenstellend waren und eine Menge Einsparungen erwartet werden. „Poolside rechnet mit einer Einsparung von 40 % im Vergleich zu anderen Optionen“, fügte er hinzu. „Qualcomm nutzt Trainium2, um KI-Systeme zu entwickeln, die in der Cloud trainiert und am Edge bereitgestellt werden können.“
Darüber hinaus stellte AWS auch seinen Trainium3-Chip vor, der einen 3-Nanometer-Prozess verwendet. Trainium3-basierte UltraServer werden voraussichtlich Ende 2025 auf den Markt kommen und sollen eine viermal höhere Leistung als Trn2 UltraServer bieten.
Um die Nutzung der Trainium-Hardware zu optimieren, hat AWS außerdem Neuron SDK auf den Markt gebracht, eine Software-Tool-Suite, die Entwicklern hilft, Modelle zu optimieren, um eine optimale Leistung auf Trainium-Chips zu erreichen. Das SDK unterstützt Frameworks wie JAX und PyTorch und ermöglicht es Kunden, die Software mit minimalen Codeänderungen in bestehende Arbeitsabläufe zu integrieren.
Derzeit sind Trn2-Instanzen in der Region USA Ost (Ohio) verfügbar und werden in Zukunft auf andere Regionen ausgeweitet. UltraServers befindet sich derzeit in der Vorschau.
Insgesamt hat die Einführung von Trainium2 und den damit verbundenen Produkten und Dienstleistungen durch AWS starke Impulse für die rasante Entwicklung im Bereich der künstlichen Intelligenz gegeben und die führende Position von AWS in den Bereichen Cloud Computing und KI weiter gefestigt. Mit der Einführung von Trainium3 werden seine Vorteile im Bereich KI-Computing in Zukunft noch bedeutender.