AWS 在2024年re:Invent 大会上重磅发布了基于Trainium2 芯片的Amazon EC2 Trn2 实例和Trn2UltraServers,以及下一代Trainium3 AI 芯片。新一代实例在性能上显着提升,价格性能比相比上一代基于GPU 的EC2 实例提升了30-40%。此举标志着AWS 在AI 计算领域迈出了重要一步,为大型语言模型的训练和部署提供了更强大的计算能力,并通过与多家合作伙伴的合作,推动AI 技术的广泛应用和发展,显着提升成本效益。
在2024年AWS re:Invent 大会上,亚马逊网络服务(AWS)宣布推出基于Trainium2芯片的Amazon Elastic Compute Cloud(EC2)实例,正式提供给用户。这新实例在价格性能方面相比于上一代基于GPU 的EC2实例提升了30-40%。 AWS 首席执行官马特・加曼表示:“,我很高兴地宣布Trainium2驱动的Amazon EC2Trn2实例的正式发布。”
除了Trn2实例外,AWS 还推出了Trn2UltraServers,并展示了下一代Trainium3AI 芯片。 Trn2实例配备了16个Trainium2芯片,能够提供高达20.8petaflops 的计算性能,专为训练和部署具有数十亿参数的大型语言模型(LLM)而设计。
Trn2UltraServers 则将四个Trn2服务器组合成一个系统,提供高达83.2petaflops 的计算能力,以实现更高的可扩展性。这些UltraServers 拥有64个互联的Trainium2芯片,能够满足客户在训练和推理过程中对计算能力的需求。 AWS 计算与网络副总裁大卫・布朗表示:“Trainium2实例和Trn2UltraServers 的推出为客户提供了解决最复杂AI 模型所需的计算能力。”
AWS 与Anthropic 公司合作,启动了名为Project Rainier 的大规模AI 计算集群,采用数十万个Trainium2芯片。这一基础设施将支持Anthropic 的开发,包括对其旗舰产品Claude 的优化,以在Trainium2硬件上运行。
另外,Databricks 和Hugging Face 也与AWS,利用Trainium 的能力来提高他们AI 产品的性能和成本效率。 Databricks 计划利用这些硬件来增强其Mosaic AI 平台,而Hugging Face 则将Trainium2集成到其AI 开发和部署工具中。
Trainium2的其他客户包括Adobe、Poolside 和高通。加曼提到,Adobe 在使用Trainium2进行Firefly 推理模型的早期测试后,结果非常令人满意,预计会节省大量。 “Poolside 预计能与其他选择相比节省40%”,他补充道。 “高通正在利用Trainium2开发能够在云中训练并在边缘部署的AI 系统。”
此外,AWS 还预告其Trainium3芯片,该芯片采用3纳米工艺制程。基于Trainium3的UltraServers 预计将于2025年底推出,旨在提供比Trn2UltraServers 高出四倍的性能。
为了优化Trainium 硬件的使用,AWS 还推出了Neuron SDK,这是一个软件工具套件,帮助开发者优化模型以在Trainium 芯片上实现最佳性能。该SDK 支持JAX 和PyTorch 等框架,使客户能够在最小代码修改的情况下将软件集成到现有工作流程中。
目前,Trn2实例已在美国东部(俄亥俄州)地区提供,未来将扩展到其他地区。 UltraServers 目前处于预览阶段。
总而言之,AWS 推出的Trainium2 及其相关产品和服务,为人工智能领域的快速发展提供了强劲动力,进一步巩固了AWS 在云计算和AI 领域的领先地位。 未来,随着Trainium3 的推出,其在AI 计算领域的优势将更加显着。