AWS lanzó instancias Amazon EC2 Trn2 y Trn2UltraServers basados en chips Trainium2 en la conferencia re:Invent de 2024, así como el chip de IA Trainium3 de próxima generación. La nueva generación de instancias ha mejorado significativamente el rendimiento y la relación precio-rendimiento es entre un 30% y un 40% más alta que la generación anterior de instancias EC2 basadas en GPU. Este movimiento marca un paso importante para AWS en el campo de la informática de IA, ya que proporciona capacidades informáticas más potentes para la capacitación e implementación de grandes modelos de lenguaje y promueve la aplicación y el desarrollo generalizados de la tecnología de IA a través de la cooperación con múltiples socios. eficacia.
En la conferencia AWS re:Invent de 2024, Amazon Web Services (AWS) anunció el lanzamiento de instancias de Amazon Elastic Compute Cloud (EC2) basadas en chips Trainium2, que están oficialmente disponibles para los usuarios. El precio y el rendimiento de esta nueva instancia son entre un 30% y un 40% más altos que los de la generación anterior de instancias EC2 basadas en GPU. "Me complace anunciar la disponibilidad general de las instancias Amazon EC2 Trn2 impulsadas por Trainium2", afirmó Matt Garman, director ejecutivo de AWS.
Además de las instancias Trn2, AWS también lanzó Trn2UltraServers y demostró el chip Trainium3AI de próxima generación. Equipadas con 16 chips Trainium2, las instancias Trn2 son capaces de ofrecer hasta 20,8 petaflops de rendimiento informático y están diseñadas para entrenar e implementar grandes modelos de lenguaje (LLM) con miles de millones de parámetros.
Trn2UltraServers combina cuatro servidores Trn2 en un solo sistema, proporcionando hasta 83,2 petaflops de potencia informática para lograr una mayor escalabilidad. Estos UltraServers tienen 64 chips Trainium2 interconectados para satisfacer las necesidades de potencia informática de los clientes durante el entrenamiento y la inferencia. "El lanzamiento de las instancias Trainium2 y Trn2UltraServers ofrece a los clientes la potencia informática que necesitan para resolver los modelos de IA más complejos", afirmó David Brown, vicepresidente de Computación y Redes de AWS.
AWS se ha asociado con Anthropic para lanzar un clúster informático de IA a gran escala llamado Proyecto Rainier, que utiliza cientos de miles de chips Trainium2. Esta infraestructura respaldará el desarrollo de Anthropic, incluida la optimización de su producto estrella Claude para ejecutarlo en hardware Trainium2.
Además, Databricks y Hugging Face también están trabajando con AWS para aprovechar las capacidades de Trainium para mejorar el rendimiento y la rentabilidad de sus productos de IA. Databricks planea utilizar el hardware para mejorar su plataforma Mosaic AI, mientras que Hugging Face integra Trainium2 en sus herramientas de desarrollo e implementación de AI.
Otros clientes de Trainium2 incluyen Adobe, Poolside y Qualcomm. Garman mencionó que después de que Adobe utilizó Trainium2 para las pruebas iniciales del modelo de inferencia de Firefly, los resultados fueron muy satisfactorios y se espera que ahorre mucho. "Poolside espera ahorrar un 40% en comparación con otras opciones", añadió. "Qualcomm está aprovechando Trainium2 para desarrollar sistemas de inteligencia artificial que puedan entrenarse en la nube e implementarse en el borde".
Además, AWS también presentó una vista previa de su chip Trainium3, que utiliza un proceso de 3 nanómetros. Se espera que los UltraServers basados en Trainium3 se lancen a finales de 2025 y están diseñados para proporcionar un rendimiento cuatro veces mayor que los UltraServers Trn2.
Para optimizar el uso del hardware Trainium, AWS también lanzó Neuron SDK, un conjunto de herramientas de software que ayuda a los desarrolladores a optimizar modelos para lograr un rendimiento óptimo en los chips Trainium. El SDK admite marcos como JAX y PyTorch, lo que permite a los clientes integrar el software en flujos de trabajo existentes con modificaciones mínimas de código.
Actualmente, las instancias Trn2 están disponibles en la región Este de EE. UU. (Ohio) y se expandirán a otras regiones en el futuro. UltraServers se encuentra actualmente en versión preliminar.
En definitiva, el lanzamiento de Trainium2 y sus productos y servicios relacionados por parte de AWS ha dado un fuerte impulso al rápido desarrollo del campo de la inteligencia artificial y ha consolidado aún más la posición de liderazgo de AWS en los campos de la computación en la nube y la IA. En el futuro, con el lanzamiento de Trainium3, sus ventajas en el campo de la computación con IA serán aún más significativas.