強化学習はサンプル効率が低いためその応用が制限されていますが、環境生成モデルとしての世界モデルはこの問題を解決する希望をもたらします。強化学習エージェントを効率的にトレーニングできますが、ほとんどの世界モデルは環境力学をシミュレートするために離散的な潜在変数シーケンスを使用するため、重要な視覚的な詳細が無視される可能性があります。 Downcodes のエディターは、強化学習エージェントのトレーニングに拡散モデルを使用し、Atari 100k ベンチマーク テストで優れた結果を達成した DIAMOND (Ambient Dream Diffusion Model) の解釈を提供します。
現在、ほとんどの世界モデルは、離散的な潜在変数シーケンスを通じて環境力学をシミュレートしています。ただし、コンパクトな離散表現に圧縮するこの方法では、強化学習にとって重要な視覚的な詳細が無視される可能性があります。
同時に、拡散モデルが画像生成の分野で主流の手法となり、従来の離散的な潜在変数モデリング手法に挑戦しています。これに触発されて、研究者らは、拡散世界モデルで訓練された強化学習エージェントである DIAMOND (アンビエント ドリーム拡散モデル) と呼ばれる新しい手法を提案しました。 DIAMOND は、長期にわたる拡散モデルの効率と安定性を確保するために重要な設計上の選択を行っています。
DIAMOND は、有名な Atari100k ベンチマークで人間による正規化スコアの平均 1.46 を達成しました。これは、完全に世界のモデルに基づいてトレーニングされたエージェントとしては最高の結果です。さらに、画像空間で動作する利点は、拡散ワールド モデルが環境の直接の代替となり、ワールド モデルとエージェントの動作をより深く理解できることです。研究者らは、一部のゲームのパフォーマンス向上は、主要なビジュアル詳細のモデリングの改善によってもたらされることを発見しました。
DIAMOND の成功は、EDM (拡散ベースの生成モデルの設計空間の解明) フレームワークの選択によるものです。従来の DDPM (ノイズ除去拡散確率モデル) と比較して、EDM はより少ないノイズ除去ステップで高い安定性を示し、長期間にわたるモデル内の深刻な累積エラーを回避します。
さらに、DIAMOND は、その拡散世界モデルがインタラクティブなニューラル ゲーム エンジンとして機能する能力を実証しました。 DIAMOND は、87 時間の静的な Counter-Strike: Global Offensive ゲーム データをトレーニングすることにより、インタラクティブな Dust II マップ ニューラル ゲーム エンジンの生成に成功しました。
将来的には、自己回帰トランスフォーマーなどのより高度なメモリ メカニズムを統合することで、DIAMOND のパフォーマンスをさらに向上させることができます。さらに、報酬/終了予測を拡散モデルに統合することも、検討する価値のある方向性です。
論文アドレス: https://arxiv.org/pdf/2405.12399
DIAMOND の出現は、強化学習の分野に新たなブレークスルーをもたらしました。Atari ゲームや「Counter-Strike」ゲームにおけるその優れたパフォーマンスは、効率的な世界モデルの構築における普及モデルの大きな可能性を示しています。今後、技術のさらなる発展に伴い、DIAMONDとその派生技術はより多くの分野で応用され、人工知能技術の進歩を促進することが期待されます。拡散モデルに基づく強化学習に関する更なる研究成果が期待されます。