overcooked_aiダウンロード - overcooked_aiソースコードのダウンロード

overcooked_ai

AI ソースコード

Updated MDP Dynamics Support

ダウンロード

調理しすぎた AI ?‍??

利用可能なレイアウトのうち 5 つ。新しいレイアウトは、ハードコーディングしたり、プログラムで生成したりするのが簡単です。

導入？

Overcooked-AI は、非常に人気のあるビデオゲーム Overcooked をベースにした、人間と AI の完全に協調的なタスクパフォーマンスを実現するベンチマーク環境です。

ゲームの目標は、できるだけ早くスープを提供することです。各スープでは、最大 3 つの材料を鍋に入れ、スープが調理されるのを待ってから、エージェントにスープを受け取って配達してもらう必要があります。エージェントは、高い報酬を達成するために、その場でタスクを分割し、効果的に調整する必要があります。

ここでゲームを試すことができます (以前にトレーニングを受けた DRL エージェントとプレイします)。このインターフェイスを使用して独自のトレーニングを受けたエージェントを操作したり、人間と AI または人間と人間のデータをさらに収集するには、ここでコードを使用できます。ここでは、既に収集されている人間対人間および人間対 AI のゲームプレイデータの一部を見つけることができます。

環境と互換性のある DRL 実装は、src/human_aware_rl の下のサブモジュールとしてリポジトリに含まれています。

古い human_aware_rl は廃止される予定であり、2019 年の論文「人間と AI の調整のための人間についての学習の有用性について」の結果を再現するためにのみ使用する必要があります (ブログ投稿も参照してください)。

環境を簡単に使用する場合は、この環境ラッパーの使用を検討する価値があります。

Overcooked-AI を使用した研究論文 ?

キャロル、ミカ、ロヒン・シャー、マーク・K・ホー、トーマス・L・グリフィス、サンジット・A・セシア、ピーター・アッビール、アンカ・ドラガン。「人間とAIの連携における人間についての学習の有用性について」 NeurIPS 2019。
キャラコーン、ルジコーン、ポラメイト・マヌンポン、ナット・ディロクタナクル。「協調的なマルチエージェント深層強化学習におけるパートナー多様化手法の調査」神経情報処理。アイコンイップ2020。
ノット、ポール、ミカ・キャロル、サム・デブリン、カミル・チョセク、カチャ・ホフマン、アンカ・D・ドラガン、ロヒン・シャー。「協調エージェントの堅牢性の評価」アマス2021。
ナレプカ、パトリック、ジョーダン・P・グレゴリー＝ダンスモア、ジェームズ・シンプソン、ガウラフ・パティル、マイケル・J・リチャードソン。「人間とチームを組む人工エージェントにおけるインタラクションの柔軟性」コグシ2021。
フォンテイン、マシュー C.、ヤチュアンスー、ユルンチャン、ブライオンジャナカ、ステファノスニコライディス。「人間とロボットの協調における環境の重要性について」 RSS 2021。
趙、瑞、宋晋明、胡海峰、楊高、イー・ウー、孫忠謙、楊偉。「ゼロショット人間と AI の調整のための最大エントロピー人口ベースのトレーニング」。 NeurIPS 協力 AI ワークショップ、2021 年。
サーカール、ビディプタ、アディティ・タラティ、アンディ・シー、ドーサ・サディ。「PantheonRL: 動的トレーニングインタラクションのための MARL ライブラリ」。 AAAI 2022。
リベイロ、ジョアン G.、カサンドロマルティーニョ、アルベルトサルディーニャ、フランシスコ S. メロ。「未知のタスクにおける未知のチームメイトの支援: 部分的な可観測性の下でのアドホックチームワーク」。
Xihuai Wang、Shao Zhang、Wenhao Zhang、Wentao Dong、Jingxiao Chen、Ying Wen、Weinan Zhang。 NeurIPS 2024。「ZSC-Eval: マルチエージェントのゼロショット調整のための評価ツールキットおよびベンチマーク」。

取り付け☑️

PyPI からインストールしますか?

pip を使用して、コンパイル済みのホイールファイルをインストールできます。

 pip install overcooked-ai

PyPI リリースは安定していますが、頻度は低いことに注意してください。最新の開発機能については、 pip install -e . 。

ソースから構築しますか?

Python 3.7 で conda 環境をセットアップすると便利です (virtualenv も機能します)。

 conda create -n overcooked_ai python=3.7
conda activate overcooked_ai

リポジトリのクローンを作成する

 git clone https://github.com/HumanCompatibleAI/overcooked_ai.git

最後に、Python setup-tools を使用してローカルにインストールします

環境を使用したいだけの場合:

 pip install -e .

DRL 実装も必要な場合 (端末にpip install -e '.[harl]'として入力する必要がある場合があります):

 pip install -e .[harl]

インストールを確認していますか?

ソースからビルドする場合、Overcooked 単体テストスイートを実行してインストールを検証できます。次のコマンドはすべて、 overcooked_aiプロジェクトのルートディレクトリから実行する必要があります。

 python testing/overcooked_test.py

humam_aware_rlが正しくインストールされているかどうかを確認するには、 src/human_aware_rlディレクトリから次のコマンドを実行します。

 $ ./run_tests.sh

️テストスクリプトは CWD を使用して一時的なトレーニング実行/チェックポイントを保存するパスを動的に生成するため、スクリプトを実行する前に必ず CWD を human_aware_rl ディレクトリに変更してください。テストスクリプトは、正しいディレクトリから実行されないと失敗します。

これにより、human_aware_rl モジュールに属するすべてのテストが実行されます。ターゲット固有のテストを実行する手順については、サブモジュールの README をチェックアウトできます。これは任意のディレクトリから開始できます。

計画コードを広範囲に使用することを考えている場合は、Overcooked アクセサリツールをすべて検証する完全なテストスイートを実行する必要があります (これには 5 ～ 10 分かかる場合があります)。

 python -m unittest discover -s testing/ -p "*_test.py"

コード構造の概要 ?

overcooked_ai_pyには次のものが含まれます。

mdp/ :

overcooked_mdp.py : メインの Overcooked ゲームロジック
overcooked_env.py : Overcooked mdp 上に構築された環境クラス
layout_generator.py : ランダムなレイアウトをプログラムで生成する関数

agents/ :

agent.py : エージェントクラスの場所
benchmarking.py : エージェント (トレーニング済みとプランナーの両方) の軌跡をサンプルし、さまざまなモデルをロードします

planning/ :

planners.py : ほぼ最適なエージェント計画ロジック
search.py : A* 検索と最短パスのロジック

human_aware_rlには以下が含まれます。

ppo/ :

ppo_rllib.py : PPO エージェントをトレーニングするためのコードが存在するプライマリモジュール。これには、 OvercookedEnvの rllib 互換ラッパー、rllib Policyクラスを Overcooked Agentに変換するユーティリティ、ユーティリティ関数とコールバックが含まれます。
ppo_rllib_client.pyエージェントのトレーニングを構成および起動するためのドライバーコード。使用方法の詳細については以下をご覧ください
ppo_rllib_from_params_client.py : 変数 MDP を使用したオーバークックで PPO を使用して 1 つのエージェントをトレーニングします
ppo_rllib_test.pyローカル健全性チェックの再現性テスト
run_experiments.sh 5 つの古典的なレイアウトでエージェントをトレーニングするためのスクリプト
trained_example/テスト目的の事前トレーニング済みモデル

rllib/ :

rllib.py : Overcooked API を利用する rllib エージェントとトレーニングユーティリティ
utils.py : 上記のユーティリティ
tests.py : 上記の予備テスト

imitation/ ：

behavior_cloning_tf2.py : BC モデルをトレーニング、保存、ロードするためのモジュール
behavior_cloning_tf2_test.py : bc モジュールのさまざまなコンポーネントの単体テストだけでなく、基本的な再現性テストが含まれています。

human/ ：

DRL アルゴリズムで使用される特定の形式で人間のデータを処理するprocess_data.pyスクリプト
data_processing_utils.py上記のユーティリティ

utils.py : リポジトリのユーティリティ

overcooked_demoには次のものが含まれます。

server/ :

app.py : Flask アプリ
game.py : ゲームのメインロジック。状態遷移は、ゲーム環境に埋め込まれた overcooked.Gridworld オブジェクトによって処理されます。
move_agents.py : エージェントディレクトリへのチェックポイントのコピーを簡素化するスクリプト。使用方法の説明は、ファイル内、またはpython move_agents.py -hを実行することで見つかります。

up.sh : ゲームをホストする Docker サーバーを起動するシェルスクリプト

Python の視覚化 ?

Python で軌跡を視覚化するためのサンプルコードについては、この Google Colab を参照してください。

エージェントのトレーニング、ロード、評価のプロセスについてユーザーをガイドするノートブックを組み込みました。理想的には、ユーザーが Google Colab でノートブックを実行できるようにしたいと考えています。ただし、Colab のデフォルトのカーネルは Python 3.10 であり、リポジトリは Python 3.7 用に最適化されているため、現在一部の関数は Colab と互換性がありません。シームレスなエクスペリエンスを提供するために、ノートブック内のすべてのセルが事前に実行されており、適切な設定に従ってローカルで実行すると、予想される出力を表示できるようになります。

Overcooked_demo は、視覚化のためにブラウザーでインタラクティブなゲームを開始することもできます。詳細は README を参照してください。