中国人工智能领域取得重大突破!DeepSeek公司发布了参数规模达6710亿的开源大语言模型DeepSeek V3,其性能超越了包括GPT-4在内的多个主流封闭源模型。DeepSeek V3不仅在编程竞赛和代码集成测试中表现优异,更以其高效的研发成本——仅需两个月和550万美元——令人瞩目,这与同类产品的开发投入形成鲜明对比。这一成果的背后是量化对冲基金High-Flyer Capital Management的大力支持,他们投资建设了强大的服务器集群。
中国人工智能公司DeepSeek日前发布了一款具有里程碑意义的开源大语言模型DeepSeek V3。这款拥有6710亿参数的模型不仅规模超越Meta的Llama3.1,在多项基准测试中的表现也优于包括GPT-4在内的主流封闭源模型。
DeepSeek V3的突出特点在于其强大的性能与高效的开发过程。该模型在编程平台Codeforces的竞赛中表现出色,并在测试代码集成能力的Aider Polyglot测试中领先竞争对手。模型训练采用了14.8万亿token的庞大数据集,参数规模达到了Llama3.1的1.6倍。
更引人注目的是,DeepSeek仅用两个月时间、550万美元成本就完成了模型训练,这个数字远低于同类产品的开发投入。
DeepSeek背后的支持方是中国量化对冲基金High-Flyer Capital Management。该基金投资建设了拥有10,000个Nvidia A100GPU、价值约1.38亿美元的服务器集群。High-Flyer创始人梁文峰表示,开源AI终将打破当前封闭模型的垄断优势。
DeepSeek V3采用宽松许可证发布,允许开发者下载、修改并将其用于包括商业用途在内的各类应用。尽管运行完整版本仍需要强大的硬件支持,但这一开源模型的发布标志着AI领域的开放创新迈出重要一步。
DeepSeek V3的开源发布,不仅推动了人工智能技术的进步,也为全球开发者提供了更多机会,预示着人工智能领域未来发展将更加开放和多元化。 其低成本高效率的训练过程,也为其他研究机构和公司提供了宝贵的经验借鉴,值得期待后续发展。