在人工智能領域,訓練大型語言模型(LLM)一直是一項資源密集型的任務,通常只有少數科技巨頭能夠承擔。然而,谷歌最近推出的SALT(小模型輔助大模型訓練)方法,可能會徹底改變這一現狀。這一創新不僅降低了訓練成本,還提高了模型的性能,為更多研究機構和企業打開了AI開發的大門。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
SALT方法的核心在於其兩階段訓練過程。第一階段是知識蒸餾,小型語言模型(SLM)作為“教師”,通過“軟標籤”將其學習到的知識傳遞給大型模型。這一階段特別適用於那些小型模型已經掌握的基礎任務,幫助大型模型在早期學習中打下堅實的基礎。
第二階段是自我監督學習,大型模型開始獨立學習,專注於更複雜的任務。這一階段的過渡需要精心設計,包括線性衰減和線性比例衰減等策略,以確保大型模型能夠逐步減少對小型模型的依賴,最終實現自主學習和優化。
谷歌的研究表明,使用SALT方法訓練一個28億參數的大型模型,時間縮短了28%,並且在數學問題和閱讀理解任務上的準確率分別提升了3%和4%。這一顯著的性能提升不僅證明了SALT的高效性,也展示了其在復雜任務中的強大潛力。
SALT的出現不僅提升了訓練效率,還降低了AI開發的門檻。過去,只有大型科技公司能夠承擔的訓練成本,現在許多小型研究機構和公司也能夠參與其中。這將推動更多創新和專業化AI解決方案的出現,進一步推動人工智能領域的發展。
總的來說,SALT方法通過引入小型模型的輔助訓練,不僅提高了大型模型的性能,還大幅降低了訓練成本。這一創新有望在AI領域引發一場革命,使得更多機構能夠參與到AI的研究和開發中,推動整個行業的進步。