中国量化投资巨头幻方量化旗下的DeepSeek近日发布了其最新推理专注型大型语言模型R1-Lite-Preview,这款模型目前仅通过DeepSeek Chat网页聊天机器人平台向公众开放。R1-Lite-Preview采用“链式思维”推理,能够展示其在回答用户查询时所经历的思维过程,即使某些思维链看似无厘头,但其整体回答准确率很高,甚至能解决一些传统强大AI模型难以处理的问题。该模型在多个基准测试中超越了OpenAI近期发布的o1-preview模型,其性能在需要逻辑推理、数学思考和实时问题解决的任务中表现出色。
DeepSeek以其在开源AI生态系统中的创新贡献而闻名,这次的新发布旨在为公众带来高水平的推理能力,同时保持对可访问性和透明性的承诺。尽管R1-Lite-Preview目前仅在聊天应用中可用,但它已凭借接近甚至超过OpenAI近期发布的o1-preview模型的性能引起了广泛关注。R1-Lite-Preview采用“链式思维”推理,能够展示其在响应用户查询时所经历的不同思维过程。
尽管某些思维链可能对人类而言显得无厘头或错误,但整体而言,R1-Lite-Preview的回答非常准确,甚至能够解决一些传统强大AI模型如GPT-4o和Claude系列遇到的“陷阱”问题,例如“草莓”这个词里有多少个字母R?“9.11和9.9哪个大?”
根据DeepSeek的说法,该模型在需要逻辑推理、数学思考和实时问题解决的任务中表现出色。其性能在AIME(美国邀请数学考试)和MATH等已建立的基准测试中超越了OpenAI o1-preview的水平。
此外,DeepSeek还发布了模型的扩展数据,展示了在给予模型更多时间或“思考令牌”以解决问题时,其准确性稳步提高的趋势。图表强调,随着思维深度的增加,该模型在AIME等基准上的得分提升。
目前,R1-Lite-Preview的发布在关键基准中表现优异,能够处理从复杂数学到逻辑场景的一系列任务,得分与顶级推理模型如GPQA和Codeforces相当。该模型透明的推理过程让用户能够实时观察其逻辑步骤,增强了系统的责任感和可信度。
值得注意的是,DeepSeek尚未发布完整的代码供第三方独立分析或基准测试,也未提供API接口供独立测试,该公司尚未发布相关的博客文章或技术文档,说明R1-Lite-Preview的训练或构,这让其背后的起源依然充满疑问。
R1-Lite-Preview目前可以通过DeepSeek Chat(chat.deepseek.com)免费使用,但其高级“深思”模式每天限量50条消息,用户可借此体验其强大能力。DeepSeek计划发布R1系列模型的开源版本和相关API,进一步支持开源AI社区的发展。
DeepSeek继续在开源AI领域中推动创新,R1-Lite-Preview的发布为其在推理和可扩展性方面增加了新的维度。随着企业和研究者探索推理密集型AI的应用,DeepSeek的开放承诺将确保其模型成为发展和创新的重要资源。
官方入口:https://www.deepseek.com/
划重点:
DeepSeek发布R1-Lite-Preview模型,性能接近并超越OpenAI o1。
模型展示透明的推理过程,用户可以实时观察逻辑步骤。
深度学习与逻辑推理能力显著,未来将发布开源版本和API。
总而言之,DeepSeek发布的R1-Lite-Preview模型在推理能力方面展现出显著优势,其透明的推理过程和未来开源的计划也值得期待。 然而,目前缺乏公开的代码和技术文档,限制了对其性能的全面评估。