Deepseekの最近リリースされたDeepseek-V3とDeepseek-R1モデルは、人工知能の分野で大きな反応を引き起こしました。特に、DeepSeek-R1のオープンソースモデルの重みと開示すべてのトレーニングテクノロジーを開示しています。メタエンジニアは、チームがパニックに陥っていると公に述べ、DeepSeekのテクノロジーを再現しようとしました。
DeepSeekによって最近発売された一連のモデルは、グローバルAIサークルにショックを引き起こしました。 DeepSeek-V3は、低コストで高性能を達成し、多くのレビューでトップクローズドソースモデルに匹敵します。また、モデルの重み付けが新しいブレークスルーと考えをもたらしました。
Deepseekは、すべてのトレーニングテクニックも開示しています。 R1はOpenAIのO1モデルに対してベンチマークされており、補強学習技術はトレーニング後の段階で広く使用されています。 Deepseek氏によると、R1は数学、コード、自然言語の推論などのタスクでO1に匹敵し、API価格はO1の4%未満です。
最近、海外の匿名の職場コミュニティのメタ従業員からの匿名の投稿であるTeamBlindは、特に人気がありました。 Deepseek V3の発売により、Llama 4はすべてベンチマークに遅れており、メタ生成AIチームはパニックに陥ります。 「未知の中国企業」は、既存の大きなモデルを顔に貸し出し、トレーニングを完了し、平手打ちするための550万ドルの予算を備えています。
メタエンジニアは、Deepseekを必死に解体し、コピーしようとしますが、経営陣は、チーム「リーダー」の給与をDeepseek V3トレーニングの給与を超えていることを心配しています。 DeepSeek R1の出現により状況が悪化し、一部の情報はまだ明らかにすることはできませんが、すぐに公開され、その状況はさらに不利になる可能性があります。
メタ従業員の匿名の投稿の翻訳は次のとおりです(Deepseek R1による翻訳):
メタ生成AI部門は緊急事態に入ります
それはすべて、Deepseek V3から始まりました。Llama4ベンチマークスコアの時代遅れに見えるようになりました。さらに恥ずかしいのは、「未知の中国企業がわずか500万ドルのトレーニング予算でこのようなブレークスルーを達成した」ということです。
エンジニアのチームは、Deepseekアーキテクチャを必死に解体し、そのすべての技術的詳細を再現しようとしています。これは決して誇張ではなく、私たちのコードベースはカーペットスタイルの検索を受けています。
経営陣は、部門の莫大な費用の合理性について死にかけています。生成AI部門の各「リーダー」の年間給与がDeepseek V3のトレーニングコスト全体を超え、そのような「リーダー」が多数ある場合、上級管理職にどのように説明すべきでしょうか?
Deepseek R1は、状況をさらに深刻にします。機密情報を開示することはできませんが、関連データはまもなく公開されます。
それは熟練したテクノロジー志向のチームであるはずですが、多くの人々が影響力のために流入するため、組織構造は意図的に拡大されました。このゲームオブスローンズの結果は?結局、誰もが敗者になりました。
DeepSeekシリーズモデルの紹介DeepSeek-V3:パラメーター量は671Bのハイブリッドエキスパート(MOE)言語モデルであり、各トークンは37Bをアクティブにします。 14.8兆の高品質のトークンで事前に訓練されたマルチヘッドの潜在的な注意(MLA)およびDeepseekmoeアーキテクチャを採用し、監視された微調整および強化学習の後、複数の評価でいくつかのオープンソースモデルを上回り、 GPT-4oおよびClaude 3.5 Sonnetなどのトップクローズドソースモデルは、同等のパフォーマンスを持っています。トレーニングコストは低く、わずか2.788百万H800 GPU時間、約5576百万米ドル、トレーニングプロセスは安定しています。
DeepSeek-R1:DeepSeek-R1-ZeroとDeepSeek-R1が含まれています。大規模な強化学習トレーニングを通じて、DeepSeek-R1-Zeroは、大規模な強化学習トレーニングを通じて自己検証、反省、およびその他の能力を示し、監督付きの微調整(SFT)に依存していませんが、貧しいなどの問題があります。読みやすさと言語の混乱。 DeepSeek-R1に基づいて、DeepSeek-R1は、いくつかの問題を解決するマルチステージトレーニングとコールドスタートデータを導入します。同時に、オープンソースコミュニティの開発を促進するために、異なるパラメータースケールを持つ複数のモデルが開かれています。
優れたパフォーマンス:DeepSeek-V3とDeepSeek-R1は、複数のベンチマークでうまく機能しました。たとえば、DeepSeek-V3はMMLU、ドロップ、およびその他の評価で優れた結果を達成しました。 。
トレーニングイノベーション:
DeepSeek-V3は、パフォーマンスの劣化を減らし、FP8トレーニングを改善するために、補助的な損失とマルチトークン予測目標(MTP)のない負荷分散戦略を採用しています。
DeepSeek-R1-Zeroは、純粋な強化学習トレーニングを使用し、モデルを最適化するために単純な報酬と罰シグナルのみに依存しています。これは、強化学習がモデルの推論能力を改善できることを証明しています安定性と読みやすい。
オープンソースの共有:DeepSeekシリーズモデルは、DeepSeek-V3やDeepSeek-R1、およびそれらの小さな蒸留モデルなどのオープンソースのコンセプトとオープンソースモデルの重みに準拠しているため、ユーザーは蒸留テクノロジーを通じて他のモデルをトレーニングしてコミュニケーションと革新を促進することができます。 AIテクノロジー。
マルチドメインの利点:DeepSeek-R1は、コードフォースプラットフォームで高い評価を得て、ほとんどの人間の競技者で高い評価を得ています。および世代のタスク。
高コストのパフォーマンス:DeepSeekシリーズモデルAPIは手頃な価格です。たとえば、DeepSeek-V3 APIの入力価格と出力価格は、DeepSeek-R1 APIサービスの価格も競争力があり、開発者のコストを削減します。
自然言語処理タスク:テキスト生成、質問および回答システム、機械翻訳、テキストの概要などたとえば、質問と回答のシステムでは、DeepSeek-R1は問題を理解し、テキスト生成タスクでは、特定のトピックに基づいて高品質のテキストを生成できます。
コード開発:開発者がコードを作成し、プログラムをデバッグし、コードロジックを理解するのに役立ちます。たとえば、開発者はコードの問題に遭遇すると、コードを分析してソリューションを提供できます。
数学的問題の解決:数学教育、科学研究、その他のシナリオにおける複雑な数学的問題を解決します。 DeepSeek-R1と同様に、AIMEコンペティション関連の質問でうまく機能し、数学の問題に対処する学生や研究者を学習するために使用できます。
モデルの研究開発:AI研究者がモデルの蒸留、モデル構造の改善、トレーニング方法を研究するための参照とツールを提供します。研究者は、DeepSeekのオープンソースモデルに基づいて実験を行い、新しい技術的方向性を調査できます。
補助意思決定:データと情報を処理し、ビジネス、財務などの分野で意思決定アドバイスを提供します。たとえば、市場データを分析して、企業がマーケティング戦略を策定するためのリファレンスを提供します。
プラットフォームにアクセスしてください。ユーザーは、DeepSeekの公式Webサイト(https://www.deepseek.com/)にログインして、プラットフォームに入ることができます。
モデルを選択します:公式のWebサイトまたはアプリでは、DeepSeek-V3をクリックして、DeepSeek-R1モデルによって駆動されます。 APIを介して呼び出された場合、DeepSeek-R1を使用するときにモデル= 'deepseek-reasonerを設定するなど、要件に従ってコード内の対応するモデルパラメーターを設定します。
入力タスク:「愛の小説を書く」、「このコードの機能を説明する」、「数学方程式の解決」など、ダイアログインターフェイスに自然言語で説明されているタスクを入力しますAPI仕様に、入力パラメーターとして渡されたタスク関連の情報を追加します。
結果:モデルがタスクを処理した後、結果を返し、生成されたテキストを表示し、APIを使用する場合は、後続の処理のためにAPI応答の結果データを解析します。
結論DeepSeekシリーズモデルは、優れたパフォーマンス、革新的なトレーニング方法、オープンソースの共有スピリット、費用対効果の高い利点で、AIの分野で顕著な結果を達成しました。
AIテクノロジーに興味がある場合は、DeepSeekシリーズのモデルに関する意見を好み、コメントし、共有することもできます。同時に、私たちはその後のDeepseekの開発に注意を払い続け、AI分野により多くの驚きとブレークスルーをもたらし、AIテクノロジーの継続的な進歩を促進し、さまざまな変化と機会をもたらすことを楽しみにしています。産業。
Deepseekの出現は、人工知能の分野に新しい活力と競争をもたらし、そのオープンソースの精神はさらに称賛に値します。将来、Deepseekシリーズモデルは、より多くの分野で強力な能力を示します。