オープンソース AI の新たな高みへの挑戦: DeepSeek V3 は Llama3.1 を超え、トレーニングデータは 14 兆 8,000 億トークンに達しました

著者：Eve Cole 更新時間：2024-12-30 17:48:02

中国は人工知能の分野で大きな進歩を遂げました！ DeepSeek は、パラメータサイズが 6,710 億のオープンソースの大規模言語モデルである DeepSeek V3 をリリースしました。そのパフォーマンスは、GPT-4 を含む多くの主流のクローズドソースモデルを上回ります。 DeepSeek V3 は、プログラミングコンテストやコード統合テストで好成績を収めただけでなく、類似製品の開発投資とは対照的に、わずか 2 か月と 550 万ドルという効率的な開発コストでも注目を集めました。この成果の背景には、強力なサーバークラスターの構築に投資したクオンツヘッジファンド、ハイフライヤーキャピタルマネジメントの強力な支援があります。

中国の人工知能企業 DeepSeek は最近、画期的なオープンソース大規模言語モデル DeepSeek V3 をリリースしました。 6,710 億個のパラメータを備えたこのモデルは、規模において Meta の Llama3.1 を上回るだけでなく、複数のベンチマークテストにおいて GPT-4 を含む主流のクローズドソースモデルをも上回ります。

DeepSeek V3 の優れた特徴は、強力なパフォーマンスと効率的な開発プロセスです。このモデルはプログラミングプラットフォーム Codeforces のコンテストで好成績を収め、コード統合機能をテストする Aider Polyglot テストでは競合他社をリードしました。モデルのトレーニングには14.8兆トークンという膨大なデータセットが使用され、パラメータサイズはLlama3.1の1.6倍に達します。

AI 机器人人工智能 (2)

さらに驚くべきことは、DeepSeek がモデルのトレーニングをわずか 2 か月で、費用は 550 万米ドルで完了しました。これは、同様の製品の開発投資よりもはるかに低い金額です。

DeepSeekの支援者は中国のクオンツヘッジファンド、ハイフライヤー・キャピタル・マネジメントだ。このファンドは、約 1 億 3,800 万ドル相当の 10,000 個の Nvidia A100 GPU を備えたサーバークラスターに投資しました。ハイフライヤーの創設者、梁文峰氏は、オープンソースAIは最終的に現在のクローズドモデルの独占的優位性を打ち破るだろうと語った。

DeepSeek V3 は寛容なライセンスの下でリリースされており、開発者は商用目的を含むさまざまなアプリケーションにダウンロード、変更、使用できます。フルバージョンを実行するには依然として強力なハードウェアサポートが必要ですが、このオープンソースモデルのリリースは、AI 分野におけるオープンイノベーションにとって重要なステップとなります。

DeepSeek V3 のオープンソースリリースは、人工知能技術の進歩を促進するだけでなく、世界の開発者により多くの機会を提供し、人工知能分野の将来の発展がよりオープンで多様化することを示しています。低コストかつ高効率な研修プロセスは、他の研究機関や企業にとっても貴重な経験と参考となり、今後の発展が期待されます。

オープンソース AI の新たな高みへの挑戦: DeepSeek V3 は Llama3.1 を超え、トレーニング データは 14 兆 8,000 億トークンに達しました

オープンソース AI の新たな高みへの挑戦: DeepSeek V3 は Llama3.1 を超え、トレーニングデータは 14 兆 8,000 億トークンに達しました