シャレフ・リフシッツ*、ケイラン・パスター*、ハリス・チャン†、ジミー・バー、シーラ・マキルレイス
プロジェクトページ |アーシーブ | PDF
テキストの指示に応答する AI モデルの構築は、特に連続的な意思決定タスクの場合には困難です。この研究では、unCLIP に触発された、命令ラベル付き軌跡の大規模なデータセットに依存せずに、動作の命令生成モデルを調整するための方法論を導入しています。この方法論を使用して、STEVE-1 と呼ばれる命令調整されたビデオ事前トレーニング (VPT) モデルを作成します。これは、Minecraft™ の短い水平のオープンエンドのテキストと視覚的な命令に従うことができます。 STEVE-1 は 2 つのステップでトレーニングされます。1 つは、事前トレーニングされた VPT モデルを MineCLIP の潜在空間内のコマンドに従うように適応させ、次にテキストから潜在コードを予測するために事前トレーニングを行うことです。これにより、自己監視型の動作クローン作成と後からの再ラベル付けを通じて VPT を微調整することができ、コストのかかる人間によるテキスト アノテーションの必要性が減り、すべてをわずか 60 ドルのコンピューティングで実現できます。 VPT や MineCLIP などの事前トレーニング済みモデルを活用し、テキスト条件付き画像生成のベスト プラクティスを採用することで、STEVE-1 は、低レベルのコントロール (マウスとキーボード) と生のピクセル入力を使用して、Minecraft での無制限の命令に従って新しい基準を設定します。以前のベースラインをはるかに上回るパフォーマンスを示し、ゲーム初期評価スイートの 13 タスク中 12 タスクを確実に完了しました。私たちは、事前トレーニング、分類子を使用しないガイダンス、データ スケーリングなど、下流のパフォーマンスの重要な要素を強調する実験的証拠を提供します。モデルの重み、トレーニング スクリプト、評価ツールを含むすべてのリソースは、さらなる研究に利用できます。
.
├── README.md
├── steve1
│ ├── All agent, dataset, and training code.
├── run_agent
│ ├── Scripts for running the agent.
├── train
│ ├── Script for training the agent and generating the dataset.
conda 環境を使用し、Python 3.10 を使用して Linux 上で実行することをお勧めします。
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
pip install minedojo git+https://github.com/MineDojo/MineCLIP
pip install git+https://github.com/minerllabs/[email protected]
pip install gym==0.19 gym3 attrs opencv-python
pip install gdown tqdm accelerate==0.18.0 wandb
steve1
ローカルにインストールしますpip install -e .
ヘッドレスサーバーで実行している場合は、 xvfb
をインストールし、 xvfb-run
で各 Python スクリプトを実行する必要があります。たとえば、 xvfb-run python script_name.py
。
また、MineDojo 環境ではなく、MineRL 環境を使用していることに注意してください。したがって、「MineDojo のインストール」手順で説明されているようにMINEDOJO_HEADLESS=1
設定しても効果はありません。
次のコマンドを実行して、データと重みをダウンロードします。
. download_weights.sh
STEVE-1 を最初からトレーニングするには、次の手順を実行してください。
. train/1_generate_dataset.sh
. train/2_create_sampling.sh
. train/3_train.sh
. train/4_train_prior.sh
さまざまなプロンプトでエージェントをテストするための 2 つのスクリプトが提供されました。独自のトレーニング済みエージェントをテストするには、スクリプト内の--in_weights
引数を変更してください。
. run_agent/1_gen_paper_videos.sh
論文で使用されるビデオを生成します。. run_agent/2_gen_vid_for_text_prompt.sh
任意のテキスト プロンプトのビデオを生成します。. run_agent/3_run_interactive_session.sh
STEVE-1 との対話型セッションを開始します。これはヘッドレス モードでは機能しません。 STEVE-1 があなたの研究に役立つと思われる場合は、私たちの論文を引用してください。
@article{lifshitz2023steve1,
title={STEVE-1: A Generative Model for Text-to-Behavior in Minecraft},
author={Shalev Lifshitz and Keiran Paster and Harris Chan and Jimmy Ba and Sheila McIlraith},
year={2023},
eprint={2306.00937},
archivePrefix={arXiv},
primaryClass={cs.LG}
}