阿里巴巴國際AI團隊最新發表的Marco-o1推理模型,著重解決開放式問題,突破了傳統模型僅限於標準答案領域的限制,展現了在處理複雜、難以量化的任務上的潛力。 Downcodes小編將帶您深入了解這款模型的特性、應用和使用方法,以及它為人工智慧領域帶來的革新。
阿里巴巴國際AI團隊最近發布了一款名為Marco-o1的新型推理模型,特別關注開放型問題的解決,不僅限於具有標準答案的學科領域,如程式設計和數學。研究團隊致力於探索這類模型能否有效推廣到難以量化且缺乏明確獎勵的領域。
Marco-o1模型的特點包括使用超長CoT資料進行微調、利用MCTS擴展解空間、細粒度解空間擴展等。模型透過self-play+MCTS建構了一批具備反思和改正能力的超長CoT數據,並結合其他開源數據一同訓練。此外,研究團隊也定義了mini-Step來進一步擴大模型的解空間,引導模型輸出更優秀的答案。
在翻譯任務中,Marco-o1模型展現了其處理長難句翻譯的能力,這是首次將推理時擴展應用到機器翻譯任務中。研究團隊開源了部分CoT數據和目前最好的模型,並規劃未來開源更多數據與模型。
模型在推理時會對response進行深入思考,例如在輸出單字'strawberry'中'r'的數量時,模型會逐步拆解單字中的每一個字母並比較,最終正確輸出結果。在機器翻譯領域,模型透過推理連結正確辨識困難,逐詞翻譯,提高了整體的翻譯準確性。
研究團隊也在其他領域進行了嘗試,證明了該模型具備解決其他通用現實問題的能力。 Marco-o1的整體結構透過self-play+MCTS建構了一批具備反思、改正能力的超長CoT數據,並結合其他開源數據一同訓練。研究團隊也融入了MarcoPolo家族的一些指令遵循資料集,提升了模型的指令遵循能力。
使用方法方面,研究團隊提供了推理程式碼和微調程式碼,使用者可以輕鬆地載入模型和分詞器,並開始聊天或微調模型。此外,該模型還可以在ModelScope上的GGUF版本直接運行,提供了更快速的體驗方式。
Marco-o1模型的發布,標誌著阿里巴巴國際AI團隊在推理模型領域邁出了重要的一步,為解決開放型問題提供了新的思路和工具。
ModelScope:
https://modelscope.cn/models/AIDC-AI/Marco-o1
Arxiv:
https://arxiv.org/abs/2411.14405
Github:
https://github.com/AIDC-AI/Marco-o1
Hugging Face:
https://huggingface.co/AIDC-AI/Marco-o1
Marco-o1模式的開源,為研究者和開發者提供了寶貴的資源,相信未來會有更多基於此模型的創新應用湧現,推動人工智慧技術持續發展。 期待更多關於Marco-o1的應用案例和研究成果出現!