Nous Research 正在進行一項開創性的實驗:利用全球分散式機器預先訓練一個15億參數的大型語言模型(LLM)。這項實驗顛覆了傳統集中式訓練模式,避免了昂貴且耗能的資料中心,並透過其網站distro.nousresearch.com即時直播訓練過程,展示模型效能和硬體位置地圖。此舉不僅降低了訓練成本,更重要的是,它有望降低大型語言模型的進入門檻,讓更多小型團隊和個人能夠參與生成式AI的研究與開發中。
在快速發展的生成式AI 領域,Nous Research 團隊正在進行一項獨特的實驗:他們正在利用分佈在全球的機器,預訓練一款15億參數的大型語言模型(LLM),這一過程避免了傳統上需要在昂貴且耗電的資料中心或超級叢集中進行的集中式開發。
Nous Research 也在其專門網站distro.nousresearch.com 上直播這一預訓練過程,即時展示模型在各類評估基准上的表現,並提供參與訓練的硬體位置地圖,涵蓋美國和歐洲的多個地點。截至本文發佈時,預訓練的剩餘時間約為57小時(即2.3天),而已完成的訓練進度超過75%。
預訓練是訓練LLM 的第一步,也是最基礎的步驟,它涉及大量文字資料的訓練,以學習語言的統計特性和結構。在這階段,模型透過處理廣泛的文本資料集,捕捉語言的模式、語法和詞彙間的上下文關係。這個過程使模型具備了對語言的廣泛理解,能夠產生連貫的文本並執行多種語言相關任務。在預訓練之後,模型還需進行針對特定任務或領域的微調。
如果這項計畫成功,Nous Research 將證明在沒有昂貴超級叢集或低延遲傳輸的情況下,仍可訓練出前沿層級的LLM,標誌著分散式AI 訓練的新紀元。這種開放原始碼的訓練方法可能會改變生成式AI 的力量格局,使小型團隊和非企業行為者在這一領域具備更多競爭力。
Nous 使用的這項新技術名為Nous DisTrO(Distributed Training Over-the-Internet),旨在減少預訓練過程中GPU 間的通訊頻寬需求。根據Nous Research 的最新發布,DisTrO 能夠將通訊需求降低多達10,000倍,使得在較慢且經濟實惠的網路連線條件下,依然能維持競爭力的收斂率和損失曲線。
此外,DisTrO 的核心突破在於有效壓縮GPU 間交換的資料量,而不影響模型的效能。這項技術建立在早期的去耦動量最佳化演算法(DeMo)基礎之上,後者同樣旨在大幅減少GPU 間的通訊需求,同時維持訓練效能。
硬體方面,Nous Research 的預訓練過程得到了Oracle、Lambda Labs、Northern Data Group、Crusoe Cloud 和Andromeda Cluster 等多家知名合作夥伴的支持,共同提供所需的異構硬件,充分測試DisTrO 在實際分佈式環境下的能力。
部落格入口:https://nousresearch.com/
Nous Research 的這項實驗,不僅在技術上取得了突破,更重要的是,它為全球AI研究人員提供了一種新的思路和可能性,預示著AI訓練模式的變革。未來,或許更多類似的分散式訓練計畫將會湧現,進一步降低AI技術進入門檻,推動AI領域的蓬勃發展。