DeepSeek推首款推理模型R1-Lite-Preview，性能超越OpenAI o1 - AI文章

作者：Eve Cole 更新時間：2025-01-26 02:00:01

中國量化投資巨頭幻方量化旗下的DeepSeek近日發布了其最新推理專注型大型語言模型R1-Lite-Preview，這款模型目前僅透過DeepSeek Chat網頁聊天機器人平台向公眾開放。 R1-Lite-Preview採用「鍊式思維」推理，能夠展示其在回答用戶查詢時所經歷的思維過程，即使某些思維鏈看似無厘頭，但其整體回答準確率很高，甚至能解決一些傳統強大AI模型難以處理的問題。該模型在多個基準測試中超越了OpenAI近期發布的o1-preview模型，其性能在需要邏輯推理、數學思考和即時問題解決的任務中表現出色。

DeepSeek以其在開源AI生態系統中的創新貢獻而聞名，這次的新發布旨在為公眾帶來高水平的推理能力，同時保持對可訪問性和透明性的承諾。儘管R1-Lite-Preview目前僅在聊天應用中可用，但它已憑藉接近甚至超過OpenAI近期發布的o1-preview模型的性能引起了廣泛關注。 R1-Lite-Preview採用「鍊式思維」推理，能夠展現其在回應使用者查詢時所經歷的不同思考過程。

儘管某些思維鏈可能對人類而言顯得無厘頭或錯誤，但整體而言，R1-Lite-Preview的回答非常準確，甚至能夠解決一些傳統強大AI模型如GPT-4o和Claude系列遇到的「陷阱”問題，例如“草莓”這個詞裡有多少個字母R?“9.11和9.9哪個大?”

根據DeepSeek的說法，該模型在需要邏輯推理、數學思考和即時問題解決的任務中表現出色。其性能在AIME（美國邀請數學考試）和MATH等已建立的基準測試中超越了OpenAI o1-preview的水平。

此外，DeepSeek還發布了模型的擴展數據，展示了在給予模型更多時間或「思考令牌」以解決問題時，其準確性穩步提高的趨勢。圖表強調，隨著思考深度的增加，該模型在AIME等基準上的得分提升。

目前，R1-Lite-Preview的發佈在關鍵基準中表現優異，能夠處理從複雜數學到邏輯場景的一系列任務，得分與頂級推理模型如GPQA和Codeforces相當。此模型透明的推理過程讓使用者能夠即時觀察其邏輯步驟，增強了系統的責任感和可信度。

值得注意的是，DeepSeek尚未發布完整的程式碼供第三方獨立分析或基準測試，也未提供API介面供獨立測試，該公司尚未發布相關的部落格文章或技術文檔，說明R1-Lite-Preview的訓練或構，這讓背後的起源依然充滿疑問。

R1-Lite-Preview目前可以透過DeepSeek Chat（chat.deepseek.com）免費使用，但其高級「深思」模式每天限量50條訊息，用戶可藉此體驗其強大能力。 DeepSeek計畫發布R1系列模型的開源版本和相關API，進一步支持開源AI社群的發展。

DeepSeek繼續在開源AI領域中推動創新，R1-Lite-Preview的發布為其在推理和可擴展性方面增加了新的維度。隨著企業和研究者探索推理密集型AI的應用，DeepSeek的開放承諾將確保其模型成為發展和創新的重要資源。

官方入口:https://www.deepseek.com/

劃重點:

DeepSeek發表R1-Lite-Preview模型，效能接近並超越OpenAI o1。

模型展示透明的推理過程，使用者可以即時觀察邏輯步驟。

深度學習與邏輯推理能力顯著，未來將發布開源版本與API。

總而言之，DeepSeek發布的R1-Lite-Preview模型在推理能力方面展現出顯著優勢，其透明的推理過程和未來開源的計畫也值得期待。然而，目前缺乏公開的程式碼和技術文檔，限制了對其性能的全面評估。