中國量化投資巨頭幻方量化旗下的DeepSeek近日發布了其最新推理專注型大型語言模型R1-Lite-Preview,這款模型目前僅透過DeepSeek Chat網頁聊天機器人平台向公眾開放。 R1-Lite-Preview採用「鍊式思維」推理,能夠展示其在回答用戶查詢時所經歷的思維過程,即使某些思維鏈看似無厘頭,但其整體回答準確率很高,甚至能解決一些傳統強大AI模型難以處理的問題。該模型在多個基準測試中超越了OpenAI近期發布的o1-preview模型,其性能在需要邏輯推理、數學思考和即時問題解決的任務中表現出色。
DeepSeek以其在開源AI生態系統中的創新貢獻而聞名,這次的新發布旨在為公眾帶來高水平的推理能力,同時保持對可訪問性和透明性的承諾。儘管R1-Lite-Preview目前僅在聊天應用中可用,但它已憑藉接近甚至超過OpenAI近期發布的o1-preview模型的性能引起了廣泛關注。 R1-Lite-Preview採用「鍊式思維」推理,能夠展現其在回應使用者查詢時所經歷的不同思考過程。
儘管某些思維鏈可能對人類而言顯得無厘頭或錯誤,但整體而言,R1-Lite-Preview的回答非常準確,甚至能夠解決一些傳統強大AI模型如GPT-4o和Claude系列遇到的「陷阱”問題,例如“草莓”這個詞裡有多少個字母R?“9.11和9.9哪個大?”
根據DeepSeek的說法,該模型在需要邏輯推理、數學思考和即時問題解決的任務中表現出色。其性能在AIME(美國邀請數學考試)和MATH等已建立的基準測試中超越了OpenAI o1-preview的水平。
此外,DeepSeek還發布了模型的擴展數據,展示了在給予模型更多時間或「思考令牌」以解決問題時,其準確性穩步提高的趨勢。圖表強調,隨著思考深度的增加,該模型在AIME等基準上的得分提升。
目前,R1-Lite-Preview的發佈在關鍵基準中表現優異,能夠處理從複雜數學到邏輯場景的一系列任務,得分與頂級推理模型如GPQA和Codeforces相當。此模型透明的推理過程讓使用者能夠即時觀察其邏輯步驟,增強了系統的責任感和可信度。
值得注意的是,DeepSeek尚未發布完整的程式碼供第三方獨立分析或基準測試,也未提供API介面供獨立測試,該公司尚未發布相關的部落格文章或技術文檔,說明R1-Lite-Preview的訓練或構,這讓背後的起源依然充滿疑問。
R1-Lite-Preview目前可以透過DeepSeek Chat(chat.deepseek.com)免費使用,但其高級「深思」模式每天限量50條訊息,用戶可藉此體驗其強大能力。 DeepSeek計畫發布R1系列模型的開源版本和相關API,進一步支持開源AI社群的發展。
DeepSeek繼續在開源AI領域中推動創新,R1-Lite-Preview的發布為其在推理和可擴展性方面增加了新的維度。隨著企業和研究者探索推理密集型AI的應用,DeepSeek的開放承諾將確保其模型成為發展和創新的重要資源。
官方入口:https://www.deepseek.com/
劃重點:
DeepSeek發表R1-Lite-Preview模型,效能接近並超越OpenAI o1。
模型展示透明的推理過程,使用者可以即時觀察邏輯步驟。
深度學習與邏輯推理能力顯著,未來將發布開源版本與API。
總而言之,DeepSeek發布的R1-Lite-Preview模型在推理能力方面展現出顯著優勢,其透明的推理過程和未來開源的計畫也值得期待。 然而,目前缺乏公開的程式碼和技術文檔,限制了對其性能的全面評估。