AWS 在2024年 re:Invent 大会上重磅发布了基于 Trainium2 芯片的 Amazon EC2 Trn2 实例和 Trn2UltraServers,以及下一代 Trainium3 AI 芯片。新一代实例在性能上显著提升,价格性能比相比上一代基于 GPU 的 EC2 实例提升了 30-40%。此举标志着 AWS 在 AI 计算领域迈出了重要一步,为大型语言模型的训练和部署提供了更强大的计算能力,并通过与多家合作伙伴的合作,推动 AI 技术的广泛应用和发展,显著提升成本效益。
在2024年 AWS re:Invent 大会上,亚马逊网络服务(AWS)宣布推出基于 Trainium2芯片的 Amazon Elastic Compute Cloud(EC2)实例,正式提供给用户。这新实例在价格性能方面相比于上一代基于 GPU 的 EC2实例提升了30-40%。AWS 首席执行官马特・加曼表示:“,我很高兴地宣布 Trainium2驱动的 Amazon EC2Trn2实例的正式发布。”
除了 Trn2实例外,AWS 还推出了 Trn2UltraServers,并展示了下一代 Trainium3AI 芯片。Trn2实例配备了16个 Trainium2芯片,能够提供高达20.8petaflops 的计算性能,专为训练和部署具有数十亿参数的大型语言模型(LLM)而设计。
Trn2UltraServers 则将四个 Trn2服务器组合成一个系统,提供高达83.2petaflops 的计算能力,以实现更高的可扩展性。这些 UltraServers 拥有64个互联的 Trainium2芯片,能够满足客户在训练和推理过程中对计算能力的需求。AWS 计算与网络副总裁大卫・布朗表示:“Trainium2实例和 Trn2UltraServers 的推出为客户提供了解决最复杂 AI 模型所需的计算能力。”
AWS 与 Anthropic 公司合作,启动了名为 Project Rainier 的大规模 AI 计算集群,采用数十万个 Trainium2芯片。这一基础设施将支持 Anthropic 的开发,包括对其旗舰产品 Claude 的优化,以在 Trainium2硬件上运行。
另外,Databricks 和 Hugging Face 也与 AWS,利用 Trainium 的能力来提高他们 AI 产品的性能和成本效率。Databricks 计划利用这些硬件来增强其 Mosaic AI 平台,而 Hugging Face 则将 Trainium2集成到其 AI 开发和部署工具中。
Trainium2的其他客户包括 Adobe、Poolside 和高通。加曼提到,Adobe 在使用 Trainium2进行 Firefly 推理模型的早期测试后,结果非常令人满意,预计会节省大量。“Poolside 预计能与其他选择相比节省40%”,他补充道。“高通正在利用 Trainium2开发能够在云中训练并在边缘部署的 AI 系统。”
此外,AWS 还预告其 Trainium3芯片,该芯片采用3纳米工艺制程。基于 Trainium3的 UltraServers 预计将于2025年底推出,旨在提供比 Trn2UltraServers 高出四倍的性能。
为了优化 Trainium 硬件的使用,AWS 还推出了 Neuron SDK,这是一个软件工具套件,帮助开发者优化模型以在 Trainium 芯片上实现最佳性能。该 SDK 支持 JAX 和 PyTorch 等框架,使客户能够在最小代码修改的情况下将软件集成到现有工作流程中。
目前,Trn2实例已在美国东部(俄亥俄州)地区提供,未来将扩展到其他地区。UltraServers 目前处于预览阶段。
总而言之,AWS 推出的 Trainium2 及其相关产品和服务,为人工智能领域的快速发展提供了强劲动力,进一步巩固了 AWS 在云计算和 AI 领域的领先地位。 未来,随着 Trainium3 的推出,其在 AI 计算领域的优势将更加显著。