AWS 推出Trainium2 晶片，AI 計算成本降低40%

作者：Eve Cole 更新時間：2024-12-18 09:18:43

AWS 在2024年 re:Invent 大会上重磅发布了基于 Trainium2 芯片的 Amazon EC2 Trn2 实例和 Trn2UltraServers，以及下一代 Trainium3 AI 芯片。新一代实例在性能上显著提升，价格性能比相比上一代基于 GPU 的 EC2 实例提升了 30-40%。此举标志着 AWS 在 AI 计算领域迈出了重要一步，为大型语言模型的训练和部署提供了更强大的计算能力，并通过与多家合作伙伴的合作，推动 AI 技术的广泛应用和发展，显著提升成本效益。

在2024年 AWS re:Invent 大会上，亚马逊网络服务（AWS）宣布推出基于 Trainium2芯片的 Amazon Elastic Compute Cloud(EC2)实例，正式提供给用户。这新实例在价格性能方面相比于上一代基于 GPU 的 EC2实例提升了30-40%。AWS 首席执行官马特・加曼表示:“，我很高兴地宣布 Trainium2驱动的 Amazon EC2Trn2实例的正式发布。”

除了 Trn2实例外，AWS 还推出了 Trn2UltraServers，并展示了下一代 Trainium3AI 芯片。Trn2实例配备了16个 Trainium2芯片，能够提供高达20.8petaflops 的计算性能，专为训练和部署具有数十亿参数的大型语言模型（LLM）而设计。

Trn2UltraServers 则将四个 Trn2服务器组合成一个系统，提供高达83.2petaflops 的计算能力，以实现更高的可扩展性。这些 UltraServers 拥有64个互联的 Trainium2芯片，能够满足客户在训练和推理过程中对计算能力的需求。AWS 计算与网络副总裁大卫・布朗表示:“Trainium2实例和 Trn2UltraServers 的推出为客户提供了解决最复杂 AI 模型所需的计算能力。”

AWS 与 Anthropic 公司合作，启动了名为 Project Rainier 的大规模 AI 计算集群，采用数十万个 Trainium2芯片。这一基础设施将支持 Anthropic 的开发，包括对其旗舰产品 Claude 的优化，以在 Trainium2硬件上运行。

另外，Databricks 和 Hugging Face 也与 AWS，利用 Trainium 的能力来提高他们 AI 产品的性能和成本效率。Databricks 计划利用这些硬件来增强其 Mosaic AI 平台，而 Hugging Face 则将 Trainium2集成到其 AI 开发和部署工具中。

Trainium2的其他客户包括 Adobe、Poolside 和高通。加曼提到，Adobe 在使用 Trainium2进行 Firefly 推理模型的早期测试后，结果非常令人满意，预计会节省大量。“Poolside 预计能与其他选择相比节省40%”，他补充道。“高通正在利用 Trainium2开发能够在云中训练并在边缘部署的 AI 系统。”

此外，AWS 还预告其 Trainium3芯片，该芯片采用3纳米工艺制程。基于 Trainium3的 UltraServers 预计将于2025年底推出，旨在提供比 Trn2UltraServers 高出四倍的性能。

为了优化 Trainium 硬件的使用，AWS 还推出了 Neuron SDK，这是一个软件工具套件，帮助开发者优化模型以在 Trainium 芯片上实现最佳性能。该 SDK 支持 JAX 和 PyTorch 等框架，使客户能够在最小代码修改的情况下将软件集成到现有工作流程中。

目前，Trn2实例已在美国东部（俄亥俄州）地区提供，未来将扩展到其他地区。UltraServers 目前处于预览阶段。

总而言之，AWS 推出的 Trainium2 及其相关产品和服务，为人工智能领域的快速发展提供了强劲动力，进一步巩固了 AWS 在云计算和 AI 领域的领先地位。未来，随着 Trainium3 的推出，其在 AI 计算领域的优势将更加显著。