阿里開源最新數學模型Qwen2-Math 數學能力秒殺GPT-4o

作者：Eve Cole 更新時間：2024-12-06 20:16:01

阿里雲重磅推出專注於數學領域的全新大型語言模式Qwen2-Math系列，引發業界廣泛關注。此系列模型在多項數學基準測試中超越現有開源模型，甚至在某些方面勝過GPT-4o、Claude-3.5-Sonnet等知名閉源模型。 Downcodes小編將為您深度解讀Qwen2-Math系列模型的卓越性能、創新技術以及未來發展方向，帶您一探AI數學領域的最新突破。

近日，阿里雲重磅推出了Qwen2-Math系列大型語言模型，這一專注於數學領域的AI新秀一亮相就引發了業界的廣泛關注。

身為Qwen2系列的最新成員，Qwen2-Math和Qwen2-Math-Instruct-1.5B/7B/72B模型在數學解題能力上展現了令人矚目的實力。據悉，這一系列模型不僅在多項數學基準測試中超越了現有的開源模型，更是在某些方面勝過了包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和Llama- 3.1-405B在內的知名閉源模型，堪稱AI數學界的黑馬。

Qwen2-Math的成功並非偶然。阿里雲團隊在過去一年傾注了大量心血，致力於提升大型語言模型在算術和數學問題上的推理能力。這個系列模型的基礎是Qwen2-1.5B/7B/72B，研發團隊在此基礎上，利用精心設計的數學專業語料庫進行了深度預訓練。這個獨特的語料庫涵蓋了大規模高品質的數學網路文本、專業書籍、程式碼實例，以及海量的考試題目，甚至包含了由Qwen2自主產生的數學預訓練資料。

特別值得一提的是Qwen2-Math-Instruct模型。這個基於Qwen2-Math-72B訓練的數學專業獎勵模型採用了創新的訓練方法。研發團隊巧妙地結合了密集的獎勵訊號和模型回答正確與否的二元訊號，將這個組合訊號作為監督訊號，透過拒絕取樣來建構SFT（Supervised Fine-Tuning）數據，並在SFT之後的強化學習中應用了組相對策略最佳化(GRPO)技術。這種獨特的訓練方法大大提升了模型的數學解題能力。

在實際應用中，Qwen2-Math-Instruct展現了令人驚嘆的表現。無論是在2024年的AIME（美國邀請賽數學考試）還是2023年的AMC(美國數學競賽)，這個模型都在各種設定下表現出色，包括貪婪搜尋(Greedy)、多數投票、風險最小化等策略。

更令人興奮的是，Qwen2-Math在解決一些國際數學奧林匹克（IMO）等級的難題時也展現出了不俗的實力。透過一系列測試案例的分析，研究人員發現Qwen2-Math不僅能夠輕鬆應對簡單的數學競賽問題，在面對複雜難題時也能給出令人信服的解答思路。

然而，阿里雲團隊並未就此止步。他們透露，目前的Qwen2-Math系列僅支援英語，但他們已經在積極開發支援英語和中文的雙語模型，並計劃在不久的將來推出多語言版本。此外，團隊也持續優化模型，以進一步提升其解決更複雜和具挑戰性的數學問題的能力。

Qwen2-Math的橫空出世，無疑為AI在數學領域的應用開闢了新的可能性。它不僅將為教育產業帶來革命性的變化，幫助學生更好地理解和掌握數學知識，還可能在科學研究、工程等需要複雜數學計算的領域中發揮重要作用。

專案頁：https://top.aibase.com/tool/qwen2-math

模型下載：https://huggingface.co/Qwen

總而言之，Qwen2-Math系列模型的出現標誌著AI在數學領域取得了重大突破，其未來發展潛力巨大，值得持續關注。 Downcodes小編相信，隨著科技的不斷進步，Qwen2-Math將為數學教育和科學研究帶來更多可能性。