Meta 發布兩個24K H100GPU 叢集用於訓練Llama-3

作者：Eve Cole 更新時間：2025-01-04 18:00:02

Meta近日宣布將建造兩個配備24000個H100 GPU的超級集群，用於訓練其下一代大型語言模型Llama-3。本計畫採用先進的RoCEv2網路和Tectonic/Hammerspace的NFS/FUSE網路儲存方案，旨在提升訓練效率和資料存取速度。預計Llama-3將在4月末或5月中旬上線，並可能是多模態模型，同時Meta也計劃將繼續開源該模型。此舉凸顯了Meta在AI大模型領域持續投入的決心與實力，未來發展值得關注。

Meta 在官網發布兩個24K H100GPU 集群，專為訓練大型模型Llama-3 而設計。 Llama-3 採用RoCEv2 網路和Tectonic/Hammerspace 的NFS/FUSE 網路儲存。預計在4 月末或5 月中旬上線，可能是多模態模型並繼續開源。 Meta 計劃在2024 年底前擁有600,000 個H100 的算力。

Meta的大規模算力投入預示著未來AI模型訓練的進一步發展，Llama-3的發布也值得期待，其多模態特性和開源策略將對AI領域產生深遠影響。 Meta雄心勃勃的60萬H100規劃，展現了其在人工智慧領域的強大實力和未來發展方向。