NVIDIA与xAI合作,正式上线了全球最强AI训练集群Colossus,该集群由10万颗NVIDIA Hopper GPU组成,并计划未来扩展至20万颗。 Colossus主要用于训练xAI的Grok系列大型语言模型,并为X Premium用户提供聊天机器人服务。其高效的搭建速度令人瞩目,仅用122天就完成,体现了先进技术和高效团队协作的成果。 Colossus的强大性能得益于NVIDIA Spectrum-X以太网网络平台的支持,该平台提供高达400Gbps的带宽,显着提升数据传输速率,并注重可持续发展,减少数据中心的能源消耗。
今天,NVIDIA(英伟达) 宣布,与xAI 合作打造的Colossus 超级计算机集群正式上线,这可是全球最强AI训练集群Colossus,整整由10万颗NVIDIA Hopper GPU 组成。
这个庞然大物之所以能达到这样的规模,得益于NVIDIA Spectrum-X 以太网网络平台的支持。这个平台专门为多租户、超大规模的AI 工厂设计,能够通过标准以太网实现远程直接内存访问,提供卓越的性能。
Colossus 主要用于训练xAI 的Grok 系列大型语言模型,同时还为X Premium 用户提供聊天机器人服务。更令人兴奋的是,xAI 正在计划将Colossus 的规模翻倍,届时将达到20万颗NVIDIA Hopper GPU。
NVIDIA 的高级副总裁Gilad Shainer 表示,AI 已经成为各行各业的关键需求,因此对性能、安全性、可扩展性和成本效率的要求也在不断提升。而Spectrum-X 平台的出现,则为像xAI 这样的创新者提供了更快的数据处理、分析和执行能力,从而加速AI 解决方案的开发、部署和上市时间。
埃隆・马斯克也对此表示赞赏,他称Colossus 为世界上最强大的训练系统,称赞了xAI 团队、NVIDIA 以及他们的众多合作伙伴的努力。值得一提的是,Colossus 的搭建过程相当高效,仅用了122天就完成,而一般情况下,类似规模的系统可能需要数月甚至数年的时间才能完成。从第一台机架进入到培训开始,整个过程只花了19天。
在这个超级计算机的支持下,Spectrum-X 平台可以提供高达400Gbps 的带宽,显着提高数据传输速率,降低延迟。这个特性对那些需要快速数据处理和实时分析的企业至关重要。此外,Spectrum-X 还经过优化,专门支持AI 应用,使数据路由和管理更为智能,从而提升整体系统性能。
Colossus 架构的设计旨在高效扩展,以应对现代应用产生的海量数据。同时,Spectrum-X 还关注可持续发展,力求在维持高性能的同时,减少数据中心的能源消耗,帮助组织降低碳足迹。
划重点:
Colossus 超级计算机由100,000个NVIDIA Hopper GPU 组成,正在训练大型语言模型,并计划扩大至200,000个GPU。
Spectrum-X 网络平台提供高达400Gbps 的带宽,优化了数据传输和实时分析能力。
该平台关注可持续性,旨在减少数据中心的能源消耗,同时保持高性能。
Colossus的上线标志着AI算力迈向新的里程碑,其高效、可扩展和可持续的设计理念为未来AI发展提供了新的方向。 xAI和NVIDIA的合作也为AI领域的创新注入了强大的动力。