Shalev Lifshitz*, Keiran Paster*, Harris Chan†, Jimmy Ba, Sheila McIlraith
Halaman Proyek | ArXiv | PDF
Membangun model AI yang merespons instruksi teks merupakan suatu tantangan, terutama untuk tugas pengambilan keputusan berurutan. Karya ini memperkenalkan metodologi, yang terinspirasi oleh unCLIP, untuk model perilaku generatif penyetelan instruksi tanpa bergantung pada kumpulan data besar lintasan berlabel instruksi. Dengan menggunakan metodologi ini, kami membuat model Video Pretraining (VPT) yang disesuaikan dengan instruksi yang disebut STEVE-1, yang dapat mengikuti teks terbuka dan instruksi visual cakrawala pendek di Minecraft™. STEVE-1 dilatih dalam dua langkah: mengadaptasi model VPT yang telah dilatih sebelumnya untuk mengikuti perintah di ruang laten MineCLIP, kemudian melatih sebelumnya untuk memprediksi kode laten dari teks. Hal ini memungkinkan kami menyempurnakan VPT melalui kloning perilaku yang diawasi sendiri dan pelabelan ulang, mengurangi kebutuhan anotasi teks manusia yang mahal, dan semuanya hanya dengan komputasi $60. Dengan memanfaatkan model terlatih seperti VPT dan MineCLIP serta menerapkan praktik terbaik dari pembuatan gambar yang dikondisikan teks, STEVE-1 menetapkan standar baru untuk mengikuti instruksi terbuka di Minecraft dengan kontrol tingkat rendah (mouse dan keyboard) dan input piksel mentah, jauh mengungguli baseline sebelumnya dan dengan kuat menyelesaikan 12 dari 13 tugas dalam rangkaian evaluasi permainan awal kami. Kami memberikan bukti eksperimental yang menyoroti faktor-faktor utama kinerja hilir, termasuk pra-pelatihan, panduan bebas pengklasifikasi, dan penskalaan data. Semua sumber daya, termasuk bobot model, skrip pelatihan, dan alat evaluasi kami tersedia untuk penelitian lebih lanjut.
.
├── README.md
├── steve1
│ ├── All agent, dataset, and training code.
├── run_agent
│ ├── Scripts for running the agent.
├── train
│ ├── Script for training the agent and generating the dataset.
Kami merekomendasikan menjalankan di linux menggunakan lingkungan conda, dengan python 3.10.
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
pip install minedojo git+https://github.com/MineDojo/MineCLIP
pip install git+https://github.com/minerllabs/[email protected]
pip install gym==0.19 gym3 attrs opencv-python
pip install gdown tqdm accelerate==0.18.0 wandb
steve1
secara lokal dengan: pip install -e .
Jika Anda menjalankan di server tanpa kepala, Anda perlu menginstal xvfb
dan menjalankan setiap skrip python dengan xvfb-run
. Misalnya, xvfb-run python script_name.py
.
Juga, perhatikan bahwa kita menggunakan lingkungan MineRL, bukan lingkungan MineDojo. Oleh karena itu, pengaturan MINEDOJO_HEADLESS=1
seperti yang disebutkan dalam petunjuk 'Instalasi MineDojo' tidak akan berpengaruh.
Jalankan perintah berikut untuk mengunduh data dan bobot:
. download_weights.sh
Untuk melatih STEVE-1 dari awal, jalankan langkah-langkah berikut:
. train/1_generate_dataset.sh
. train/2_create_sampling.sh
. train/3_train.sh
. train/4_train_prior.sh
Kami menyediakan dua skrip untuk menguji agen dengan perintah berbeda. Untuk menguji agen terlatih Anda, harap ubah argumen --in_weights
di skrip.
. run_agent/1_gen_paper_videos.sh
untuk menghasilkan video yang digunakan di makalah.. run_agent/2_gen_vid_for_text_prompt.sh
untuk menghasilkan video untuk perintah teks arbitrer.. run_agent/3_run_interactive_session.sh
untuk memulai sesi interaktif dengan STEVE-1. Ini tidak akan berfungsi dalam mode tanpa kepala. Silakan kutip makalah kami jika Anda merasa STEVE-1 berguna untuk penelitian Anda:
@article{lifshitz2023steve1,
title={STEVE-1: A Generative Model for Text-to-Behavior in Minecraft},
author={Shalev Lifshitz and Keiran Paster and Harris Chan and Jimmy Ba and Sheila McIlraith},
year={2023},
eprint={2306.00937},
archivePrefix={arXiv},
primaryClass={cs.LG}
}