上海AI Lab復刻OpenAI奧數神器，LLaMA版o1開源- AI文章

作者：Eve Cole 更新時間：2025-02-12 19:48:01

上海AI Lab團隊開源了LLaMA版o1項目，這是一個對OpenAI奧數解題神器o1的開源復刻項目。該項目利用蒙特卡洛樹搜索、強化學習等先進技術，在數學奧賽題的解答上取得了顯著成果，其性能甚至超過了部分商業閉源方案。項目的開源，為開發者提供了寶貴的學習資源和研究基礎，也推動了人工智能在數學領域應用的進一步發展。該項目包含預訓練數據集、預訓練模型和強化學習訓練代碼等，並使用了包括LoRA、PPO等多種優化技術，旨在提升模型在數學推理上的能力。

近期，上海AI Lab團隊發布了LLaMA版o1項目，旨在復刻OpenAI的奧數解題神器o1。該項目採用了多種先進技術，包括蒙特卡洛樹搜索、Self-Play強化學習、PPO以及AlphaGo Zero的雙重策略範式，引起了開發者社區的廣泛關注。

早在OpenAI的o1系列發布之前，上海AI Lab團隊就開始探索利用蒙特卡洛樹搜索來提升大模型的數學能力。 o1發布後，團隊進一步升級算法，專注於數學奧賽問題，並將其作為OpenAI草莓項目的開源版本進行開發。

為了提升LLaMA模型在數學奧賽問題上的表現，團隊採用了成對優化策略，即不直接給出答案的絕對分數，而是比較兩個答案的相對優劣。通過這種方法，他們在最難的AIME2024基準測試中取得了顯著進步。在30道測試題中，優化後的模型做對了8道，而原版LLaMA-3.1-8B-Instruct模型只做對了2道。這一成績超過了除o1-preview和o1-mini之外的其他商業閉源方案。

10月底，團隊宣佈在基於AlphaGo Zero架構復刻OpenAI o1方面取得重大進展，成功使模型在學習過程中通過與搜索樹交互獲得高級思維能力，而無需人工標註。不到一周，項目便開源了。

目前，LLaMA版o1已開源的內容包括:預訓練數據集、預訓練模型、強化學習訓練代碼。其中，“OpenLongCoT-Pretrain”數據集包含超過10萬條長思維鏈數據，每條數據都包含一個完整的數學問題推理過程，包括思考內容、評分結果、問題描述、圖形坐標、計算過程、結論推導等完整的推理鏈路，以及對各個推理步驟的批評和驗證內容，為推理過程提供評價和指導。經過在此數據集上的繼續預訓練，模型可以像o1一樣讀取和輸出長思維鏈過程。

雖然項目名為LLaMA-O1，但目前官方提供的預訓練模型是基於谷歌的Gemma2。在預訓練模型的基礎上，開發者可以繼續進行強化學習訓練。訓練過程包括:使用蒙特卡洛樹搜索進行自我對弈以生成經驗;將經驗存儲在優先經驗回放緩衝區中;從緩衝區採樣批次數據進行訓練;更新模型參數和經驗優先級。訓練代碼中還使用了一些關鍵技術，包括使用LoRA進行參數高效微調、使用PPO算法作為策略優化方法、實現GAE算法用於計算優勢函數、以及使用優先經驗回放提高訓練效率。

值得注意的是，LLaMA-O1代碼發佈在名為SimpleBerry的GitHub賬號下，該賬號沒有特別簡介，顯得比較神秘。從其他與SimpleBerry相關的賬號和官網信息中，只能看出其性質是一個研究實驗室，但沒有透露更多研究方向的信息。

除了LLaMA-O1之外，另一個公開進展的o1復刻項目是來自上海交通大學團隊的O1-Journey。該團隊在十月初發布了第一份進展報告，介紹了創新的Journey Learning範式，以及第一個成功將搜索和學習整合到數學推理中的模型。 O1-Journey核心開發團隊主要由上交大大三、大四本科生，以及上交大GAIR實驗室（生成式人工智能研究實驗室）的一年級博士生組成，指導教師包括上交大副教授劉鵬飛、姚班校友、斯隆獎得主李遠誌等。

論文地址：https://arxiv.org/pdf/2410.02884

https://arxiv.org/pdf/2406.07394

LLaMA版o1項目的開源，標誌著在AI數學解題領域取得了重要進展，也為進一步的研究和應用提供了堅實的基礎。期待未來有更多基於此項目的創新成果出現。