本文介紹了Sakana AI提出的新型自適應框架Transformer²,它解決了傳統大型語言模型(LLM)微調方法計算密集且靜態的缺點。 Transformer² 透過一個兩階段機制,在推理過程中即時調整LLM權重,使其能夠靈活適應各種未知任務,如同章魚般適應環境。其核心在於奇異值微調(SVF)和自適應策略,透過強化學習訓練「專家」向量,並動態組合這些向量來實現對不同任務的精準應對。此框架具有參數高效能、模組化、跨模型相容等諸多優勢,在實驗中展現出優於傳統微調方法的效能。
Transformer²的核心是其獨特的兩階段機制和奇異值微調(SVF)技術,以及多種自適應策略的巧妙結合。透過強化學習訓練的「專家」向量,賦予了模型強大的適應能力,使其能夠在各種未知任務中表現出色。雖然目前仍有改進空間,但Transformer²無疑為建構真正動態、自我組織的AI系統邁出了重要一步,未來研究方向包括模型合併和CEM方法的擴展。論文地址已附於文末,期待更多研究者對此進行深入探索。