美國橡樹嶺國家實驗室取得重大突破,利用全球最強超級電腦Frontier,僅用其8%的運算能力就成功訓練出與ChatGPT級別相當的語言模型。該模型擁有數兆參數,研究團隊透過創新的分散式訓練和平行技術,實現了100%的弱擴展效率,為未來訓練更大規模的語言模型提供了寶貴的經驗和技術參考。這項研究不僅展現了超級運算技術的強大實力,也突顯了在應對大型語言模型訓練過程中記憶體等挑戰的重要性。
科學家利用全球最強超級電腦成功訓練ChatGPT等級模型,僅使用8%運算能力。該突破來自Oak Ridge National Laboratory,研究團隊採用創新技術在Frontier超級電腦上訓練了兆參數的語言模型。透過分散式訓練和平行技術,實現了100%弱擴展效率。然而,訓練大型語言模型仍面臨挑戰,需要解決記憶體問題。研究為未來訓練巨大語言模型提供經驗,突顯了分散式訓練和平行計算的關鍵作用。這項研究成果為人工智慧領域的發展帶來了新的可能性,也預示著未來大型語言模型訓練技術將朝著更有效率、更節能的方向發展。 有效率地利用運算資源是未來大型語言模型發展的重要方向。