中国の人工知能スタートアップ DeepSeek は、最新の超大型モデル DeepSeek-V3 をリリースしました。これは、オープンソース コードと強力なパフォーマンスで業界の注目を集めています。 671B パラメータと専門的なハイブリッド アーキテクチャを備えた DeepSeek-V3 は、複数のベンチマークで主要なオープン ソース モデルを上回り、一部のクローズド ソース モデルと同様のパフォーマンスを発揮します。その革新性は、補助的なロスレス負荷分散戦略とマルチトークン予測テクノロジーにあり、モデルのトレーニング効率と実行速度を大幅に向上させます。 DeepSeek-V3 のリリースは、オープンソース AI テクノロジーにおける大きな進歩を示し、クローズドソース AI との差をさらに縮め、汎用人工知能 (AGI) の開発への道を開きます。
2024 年 12 月 26 日、中国の人工知能スタートアップ DeepSeek は、最新の超大型モデル DeepSeek-V3 をリリースしました。これは、AI ベンダーをリードするオープンソース テクノロジーと革新的な挑戦で知られています。 DeepSeek-V3 には 671B のパラメータがあり、専門家混合アーキテクチャを使用して特定のパラメータをアクティブにして、特定のタスクを正確かつ効率的に処理します。 DeepSeek が提供するベンチマークによると、この新しいモデルは Meta の Llama3.1-405B を含む主要なオープンソース モデルを上回り、Anthropic や OpenAI のクローズド モデルと同等のパフォーマンスを備えています。
DeepSeek-V3 のリリースは、オープンソース AI とクローズドソース AI の間のギャップがさらに縮まることを示しています。中国のクオンツヘッジファンド、ハイフライヤー・キャピタル・マネジメントの分社としてスタートしたディープシークは、これらの開発が汎用人工知能(AGI)への道を切り開くことを期待しており、モデルは人間が実行できるあらゆる知的作業を理解または学習できるようになる。
DeepSeek-V3 の主な機能は次のとおりです。
前世代の DeepSeek-V2 と同様に、新しいモデルはマルチヘッド潜在注意 (MLA) と DeepSeekMoE の基本アーキテクチャに基づいており、効率的なトレーニングと推論を保証します。
同社はまた、補助ロスレス負荷分散戦略とマルチトークン予測 (MTP) という 2 つのイノベーションも発表しました。これにより、モデルは将来の複数のトークンを同時に予測できるようになり、トレーニング効率が向上し、1 秒あたり 60 トークンを生成することでモデルを 3 倍高速に実行できるようになります。 。
事前トレーニング段階では、DeepSeek-V3 は 14.8T の高品質で多様なトークンでトレーニングし、2 段階のコンテキスト長拡張を実行し、最後に教師あり微調整 (SFT) と強化学習 (RL) によるポストトレーニングを実行しました。 、モデルを人間の好みに合わせて調整し、その可能性をさらに解き放ちます。
トレーニング フェーズでは、DeepSeek は、FP8 混合精度トレーニング フレームワークやパイプライン並列化のための DualPipe アルゴリズムなど、さまざまなハードウェアとアルゴリズムの最適化を使用して、トレーニング コストを削減します。 DeepSeek-V3 のトレーニング プロセス全体は、2788,000 H800 GPU 時間、または約 557 万ドルで完了すると主張されています。これは、大規模な言語モデルの事前トレーニングに通常費やされる数億ドルよりもはるかに少ないです。
DeepSeek-V3 は、市場で最も強力なオープンソース モデルになりました。同社が実施した複数のベンチマークでは、英語に焦点を当てた SimpleQA と FRAMES を除き、ほとんどのベンチマークでクローズドソースの GPT-4o を上回るパフォーマンスを示しました。これらのベンチマークでは、OpenAI モデルがそれぞれ 38.2 と 80.5 のスコアでリードしました (DeepSeek-V3 のスコアは 24.9 と 80.5)。それぞれ73.3)。 DeepSeek-V3 は中国語と数学のベンチマークで特に優れたパフォーマンスを示し、Math-500 テストで 90.2 点を獲得し、Qwen の 80 点がそれに続きました。
現在、DeepSeek-V3のコードはMITライセンスに基づいてGitHubで入手でき、モデルは同社のモデルライセンスに基づいて提供されている。企業は、ChatGPT に似たプラットフォームである DeepSeek Chat を通じて新しいモデルをテストし、商用目的で API にアクセスすることもできます。 DeepSeekは2月8日までDeepSeek-V2と同価格でAPIを提供する。その後、入力トークン 100 万あたり 0.27 ドル (キャッシュ ヒットの場合はトークン 100 万あたり 0.07 ドル)、出力トークン 100 万あたり 1.10 ドルの手数料がかかります。
ハイライト:
LlamaやQwenを超える性能を持つDeepSeek-V3がリリース。
671B パラメータとエキスパート ハイブリッド アーキテクチャを採用して効率を向上させます。
イノベーションには、速度を向上させるためのロスレス負荷分散戦略とマルチトークン予測が含まれます。
トレーニングコストが大幅に削減され、オープンソース AI の開発が促進されます。
DeepSeek-V3 のオープンソースと高いパフォーマンスは、人工知能の分野に大きな影響を与え、オープンソース AI 技術の開発を促進し、さまざまな分野での応用を促進します。 DeepSeekは今後もより高度なAIモデルの開発に取り組み、AGIの実現に貢献していきます。 将来的には、DeepSeek によるさらなる画期的な進歩が期待される理由があります。