中國人工智慧領域有重大突破! DeepSeek公司發表了參數規模達6710億的開源大語言模型DeepSeek V3,其效能超越了包括GPT-4在內的多個主流封閉源模型。 DeepSeek V3不僅在程式設計競賽和程式碼整合測試中表現優異,更以其高效的研發成本——僅需兩個月和550萬美元——令人矚目,這與同類產品的開發投入形成鮮明對比。這項成果的背後是量化對沖基金High-Flyer Capital Management的大力支持,他們投資建造了強大的伺服器叢集。
中國人工智慧公司DeepSeek日前發布了一款具有里程碑意義的開源大語言模型DeepSeek V3。這款擁有6,710億參數的模型不僅規模超越Meta的Llama3.1,在多項基準測試中的表現也優於包括GPT-4在內的主流封閉源模型。
DeepSeek V3的突出特點在於其強大的性能與高效的開發過程。該模型在程式設計平台Codeforces的競賽中表現出色,並在測試程式碼整合能力的Aider Polyglot測試中領先競爭對手。模型訓練採用了14.8兆token的龐大資料集,參數規模達到了Llama3.1的1.6倍。
更引人注目的是,DeepSeek僅用兩個月、550萬美元成本就完成了模型訓練,這個數字遠低於同類產品的開發投入。
DeepSeek背後的支持方是中國量化對沖基金High-Flyer Capital Management。該基金投資建造了擁有10,000個Nvidia A100GPU、價值約1.38億美元的伺服器叢集。 High-Flyer創辦人梁文峰表示,開源AI終將打破目前封閉模型的壟斷優勢。
DeepSeek V3採用寬鬆許可證發布,允許開發者下載、修改並將其用於包括商業用途在內的各類應用。儘管運行完整版本仍需要強大的硬體支持,但這項開源模型的發布標誌著AI領域的開放創新邁出重要一步。
DeepSeek V3的開源發布,不僅推動了人工智慧技術的進步,也為全球開發者提供了更多機會,預示著人工智慧領域未來發展將更加開放和多元化。 其低成本高效率的訓練過程,也為其他研究機構和公司提供了寶貴的經驗借鑒,值得期待後續發展。