挑戰開源AI新高度:DeepSeek V3超越Llama3.1，訓練資料達14.8兆token

作者：Eve Cole 更新時間：2024-12-30 17:48:02

中國人工智慧領域有重大突破！ DeepSeek公司發表了參數規模達6710億的開源大語言模型DeepSeek V3，其效能超越了包括GPT-4在內的多個主流封閉源模型。 DeepSeek V3不僅在程式設計競賽和程式碼整合測試中表現優異，更以其高效的研發成本——僅需兩個月和550萬美元——令人矚目，這與同類產品的開發投入形成鮮明對比。這項成果的背後是量化對沖基金High-Flyer Capital Management的大力支持，他們投資建造了強大的伺服器叢集。

中國人工智慧公司DeepSeek日前發布了一款具有里程碑意義的開源大語言模型DeepSeek V3。這款擁有6,710億參數的模型不僅規模超越Meta的Llama3.1，在多項基準測試中的表現也優於包括GPT-4在內的主流封閉源模型。

DeepSeek V3的突出特點在於其強大的性能與高效的開發過程。該模型在程式設計平台Codeforces的競賽中表現出色，並在測試程式碼整合能力的Aider Polyglot測試中領先競爭對手。模型訓練採用了14.8兆token的龐大資料集，參數規模達到了Llama3.1的1.6倍。

AI 机器人人工智能 (2)

更引人注目的是，DeepSeek僅用兩個月、550萬美元成本就完成了模型訓練，這個數字遠低於同類產品的開發投入。

DeepSeek背後的支持方是中國量化對沖基金High-Flyer Capital Management。該基金投資建造了擁有10，000個Nvidia A100GPU、價值約1.38億美元的伺服器叢集。 High-Flyer創辦人梁文峰表示，開源AI終將打破目前封閉模型的壟斷優勢。

DeepSeek V3採用寬鬆許可證發布，允許開發者下載、修改並將其用於包括商業用途在內的各類應用。儘管運行完整版本仍需要強大的硬體支持，但這項開源模型的發布標誌著AI領域的開放創新邁出重要一步。

DeepSeek V3的開源發布，不僅推動了人工智慧技術的進步，也為全球開發者提供了更多機會，預示著人工智慧領域未來發展將更加開放和多元化。其低成本高效率的訓練過程，也為其他研究機構和公司提供了寶貴的經驗借鑒，值得期待後續發展。