Meta 发布两个 24K H100GPU 集群用于训练 Llama-3

作者：Eve Cole 更新时间：2025-01-04 18:00:02

Meta近日宣布将建设两个配备24000个H100 GPU的超级集群，用于训练其下一代大型语言模型Llama-3。该项目采用先进的RoCEv2网络和Tectonic/Hammerspace的NFS/FUSE网络存储方案，旨在提升训练效率和数据访问速度。预计Llama-3将在4月末或5月中旬上线，并可能是一个多模态模型，同时Meta也计划将继续开源该模型。此举凸显了Meta在AI大模型领域持续投入的决心和实力，未来发展值得关注。

Meta 在官网发布两个 24K H100GPU 集群，专为训练大型模型 Llama-3 而设计。Llama-3 采用 RoCEv2 网络和 Tectonic/Hammerspace 的 NFS/FUSE 网络存储。预计在 4 月末或 5 月中旬上线，可能是多模态模型并继续开源。Meta 计划到 2024 年底拥有 600,000 个 H100 的算力。

Meta的大规模算力投入预示着未来AI模型训练的进一步发展，Llama-3的发布也值得期待，其多模态特性和开源策略将对AI领域产生深远影响。 Meta雄心勃勃的60万H100规划，展现了其在人工智能领域的强大实力和未来发展方向。