上海階躍星辰智慧科技有限公司於2025年1月16日正式上線了其自研推理模型Step Reasoner mini(Step R-mini)。這款模型是Step系列的首個推理模型,使用者可以透過躍問網頁端體驗其強大的推理能力。 Step R-mini在邏輯推理、代碼、數學以及文學創作等多個領域表現出色,其在多個基準測試中的成績甚至超過了部分競品模型。該模型的亮點在於它能夠兼顧文理科能力,這在同類模型中較為少見。
2025年1月16日,上海階躍星辰智慧科技股份有限公司宣布其自研推理模型Step Reasoner mini(簡稱「Step R-mini」)正式上線。使用者可登入躍問網頁端https://yuewen.cn,在左上角選擇「Step R-mini」進行體驗。
Step R-mini是Step系列模型家族的首個推理模型,擅長主動規劃、嘗試和反思,透過慢思考和反覆驗證的邏輯機制,為使用者提供準確可靠的回應。它不僅能夠透過超長推理能力解決邏輯推理、程式碼和數學等複雜問題,還能兼顧文學創作等通用領域。
階躍星辰自研的Step系列基座模型矩陣已涵蓋語言、多模態到推理的全面能力。在AIME和Math等數學基準測試上,Step R-mini的成績超過了o1-preview,比肩OpenAI o1-mini。在LiveCodeBench程式碼任務上,也比o1-preview效果更佳。值得一提的是,大部分的推理模型難以兼顧文理科雙向能力,但Step R-mini透過大規模強化學習訓練,並使用On-Policy(同策略)強化學習演算法,實現了「文理兼修”,既能準確解答數學、程式碼、邏輯推理問題,又能富有創意地完成文學內容創作和日常聊天的任務。
在實際應用中,Step R-mini展現了優異的效果。在解答數學題時,面對奧數難題,它能建構合理推理鏈,實現複雜數學問題的規劃與逐步求解,並列舉不同解法方案交叉驗證。在處理幾何題目時,能主動透過畫草圖建構深度思考的內容介質。在邏輯推理任務中,自主嘗試多種解題思路,自我反問確保列舉所有良好解決方案。在程式碼題方面,能正確解答LeetCode技術平台上難度評級為「Hard」的演算法題,還能處理複雜開發需求,逐步分析使用者需求與意圖,建構程式碼邏輯。在內容創作上,能深入理解使用者表達需求,分析創作主題、文學題材等要求,思考創作角度、描繪景物、修辭手法、內容結構,賦予事物人類情感層面的象徵意義,並增加個人化、創新的表達風格。在翻譯問題上,遵循「信達雅」原則,力求呈現精準且意義豐富的翻譯結果。
除了語言推理模型,階躍星辰也正在打造視覺推理模型,將推理能力融入更多互動形態的大模型中。針對複雜視覺場景下的Reasoning問題,引入慢感知和空間推理思想,把Test-Time Scaling從文本空間轉移到視覺空間,實現在視覺空間下的Spatial-Slow-Thinking。目前,視覺推理模型已取得階段性成果,正式版本預計今年與大家會面。
Step R-mini 的上線標誌著階躍星辰在人工智慧領域取得了重大突破,其強大的推理能力和多領域應用潛力值得期待。未來,我們將持續關注階躍星辰在人工智慧領域的進一步發展。