挑战开源AI新高度:DeepSeek V3超越Llama3.1，训练数据达14.8万亿token

作者：Eve Cole 更新时间：2024-12-30 17:48:02

中国人工智能领域取得重大突破！DeepSeek公司发布了参数规模达6710亿的开源大语言模型DeepSeek V3，其性能超越了包括GPT-4在内的多个主流封闭源模型。DeepSeek V3不仅在编程竞赛和代码集成测试中表现优异，更以其高效的研发成本——仅需两个月和550万美元——令人瞩目，这与同类产品的开发投入形成鲜明对比。这一成果的背后是量化对冲基金High-Flyer Capital Management的大力支持，他们投资建设了强大的服务器集群。

中国人工智能公司DeepSeek日前发布了一款具有里程碑意义的开源大语言模型DeepSeek V3。这款拥有6710亿参数的模型不仅规模超越Meta的Llama3.1，在多项基准测试中的表现也优于包括GPT-4在内的主流封闭源模型。

DeepSeek V3的突出特点在于其强大的性能与高效的开发过程。该模型在编程平台Codeforces的竞赛中表现出色，并在测试代码集成能力的Aider Polyglot测试中领先竞争对手。模型训练采用了14.8万亿token的庞大数据集，参数规模达到了Llama3.1的1.6倍。

AI 机器人人工智能 (2)

更引人注目的是，DeepSeek仅用两个月时间、550万美元成本就完成了模型训练，这个数字远低于同类产品的开发投入。

DeepSeek背后的支持方是中国量化对冲基金High-Flyer Capital Management。该基金投资建设了拥有10，000个Nvidia A100GPU、价值约1.38亿美元的服务器集群。High-Flyer创始人梁文峰表示，开源AI终将打破当前封闭模型的垄断优势。

DeepSeek V3采用宽松许可证发布，允许开发者下载、修改并将其用于包括商业用途在内的各类应用。尽管运行完整版本仍需要强大的硬件支持，但这一开源模型的发布标志着AI领域的开放创新迈出重要一步。

DeepSeek V3的开源发布，不仅推动了人工智能技术的进步，也为全球开发者提供了更多机会，预示着人工智能领域未来发展将更加开放和多元化。其低成本高效率的训练过程，也为其他研究机构和公司提供了宝贵的经验借鉴，值得期待后续发展。