上海AI Lab團隊開源了LLaMA版o1項目,這是一個對OpenAI奧數解題神器o1的開源復刻項目。該項目利用蒙特卡洛樹搜索、強化學習等先進技術,在數學奧賽題的解答上取得了顯著成果,其性能甚至超過了部分商業閉源方案。項目的開源,為開發者提供了寶貴的學習資源和研究基礎,也推動了人工智能在數學領域應用的進一步發展。該項目包含預訓練數據集、預訓練模型和強化學習訓練代碼等,並使用了包括LoRA、PPO等多種優化技術,旨在提升模型在數學推理上的能力。
近期,上海AI Lab團隊發布了LLaMA版o1項目,旨在復刻OpenAI的奧數解題神器o1。該項目採用了多種先進技術,包括蒙特卡洛樹搜索、Self-Play強化學習、PPO以及AlphaGo Zero的雙重策略範式,引起了開發者社區的廣泛關注。
早在OpenAI的o1系列發布之前,上海AI Lab團隊就開始探索利用蒙特卡洛樹搜索來提升大模型的數學能力。 o1發布後,團隊進一步升級算法,專注於數學奧賽問題,並將其作為OpenAI草莓項目的開源版本進行開發。
為了提升LLaMA模型在數學奧賽問題上的表現,團隊採用了成對優化策略,即不直接給出答案的絕對分數,而是比較兩個答案的相對優劣。 通過這種方法,他們在最難的AIME2024基準測試中取得了顯著進步。 在30道測試題中,優化後的模型做對了8道,而原版LLaMA-3.1-8B-Instruct模型只做對了2道。 這一成績超過了除o1-preview和o1-mini之外的其他商業閉源方案。
10月底,團隊宣佈在基於AlphaGo Zero架構復刻OpenAI o1方面取得重大進展,成功使模型在學習過程中通過與搜索樹交互獲得高級思維能力,而無需人工標註。 不到一周,項目便開源了。
目前,LLaMA版o1已開源的內容包括:預訓練數據集、預訓練模型、強化學習訓練代碼。 其中,“OpenLongCoT-Pretrain”數據集包含超過10萬條長思維鏈數據,每條數據都包含一個完整的數學問題推理過程,包括思考內容、評分結果、問題描述、圖形坐標、計算過程、結論推導等完整的推理鏈路,以及對各個推理步驟的批評和驗證內容,為推理過程提供評價和指導。 經過在此數據集上的繼續預訓練,模型可以像o1一樣讀取和輸出長思維鏈過程。
雖然項目名為LLaMA-O1,但目前官方提供的預訓練模型是基於谷歌的Gemma2。 在預訓練模型的基礎上,開發者可以繼續進行強化學習訓練。 訓練過程包括:使用蒙特卡洛樹搜索進行自我對弈以生成經驗;將經驗存儲在優先經驗回放緩衝區中;從緩衝區採樣批次數據進行訓練;更新模型參數和經驗優先級。 訓練代碼中還使用了一些關鍵技術,包括使用LoRA進行參數高效微調、使用PPO算法作為策略優化方法、實現GAE算法用於計算優勢函數、以及使用優先經驗回放提高訓練效率。
值得注意的是,LLaMA-O1代碼發佈在名為SimpleBerry的GitHub賬號下,該賬號沒有特別簡介,顯得比較神秘。 從其他與SimpleBerry相關的賬號和官網信息中,只能看出其性質是一個研究實驗室,但沒有透露更多研究方向的信息。
除了LLaMA-O1之外,另一個公開進展的o1復刻項目是來自上海交通大學團隊的O1-Journey。 該團隊在十月初發布了第一份進展報告,介紹了創新的Journey Learning範式,以及第一個成功將搜索和學習整合到數學推理中的模型。 O1-Journey核心開發團隊主要由上交大大三、大四本科生,以及上交大GAIR實驗室(生成式人工智能研究實驗室)的一年級博士生組成,指導教師包括上交大副教授劉鵬飛、姚班校友、斯隆獎得主李遠誌等。
論文地址:https://arxiv.org/pdf/2410.02884
https://arxiv.org/pdf/2406.07394
LLaMA版o1項目的開源,標誌著在AI數學解題領域取得了重要進展,也為進一步的研究和應用提供了堅實的基礎。 期待未來有更多基於此項目的創新成果出現。