Shalev Lifshitz*, Keiran Paster*, Harris Chan†, Jimmy Ba, Sheila McIlraith
프로젝트 페이지 | ArXiv | PDF
텍스트 지침에 응답하는 AI 모델을 구축하는 것은 특히 순차적인 의사 결정 작업의 경우 어렵습니다. 이 작업은 명령 레이블이 지정된 궤적의 대규모 데이터 세트에 의존하지 않고 명령 조정 생성 모델 동작을 위한 unCLIP에서 영감을 받은 방법론을 소개합니다. 이 방법론을 사용하여 우리는 Minecraft™에서 단거리 개방형 텍스트 및 시각적 지침을 따를 수 있는 STEVE-1이라는 지침 조정 비디오 사전 훈련(VPT) 모델을 만듭니다. STEVE-1은 두 단계로 훈련됩니다. 사전 훈련된 VPT 모델을 MineCLIP의 잠재 공간의 명령을 따르도록 조정한 다음, 텍스트에서 잠재 코드를 예측하기 전에 훈련합니다. 이를 통해 자체 감독 행동 복제 및 사후 판단 재라벨링을 통해 VPT를 미세 조정할 수 있어 비용이 많이 드는 인간 텍스트 주석의 필요성을 줄이고 단 60달러의 컴퓨팅 비용으로 이 모든 작업을 수행할 수 있습니다. VPT 및 MineCLIP과 같은 사전 훈련된 모델을 활용하고 텍스트 조건 이미지 생성의 모범 사례를 채택함으로써 STEVE-1은 낮은 수준의 컨트롤(마우스 및 키보드) 및 원시 픽셀 입력을 통해 Minecraft에서 개방형 명령 따르기에 대한 새로운 기준을 설정합니다. 이전 기준을 훨씬 능가하고 초기 게임 평가 제품군에서 13개 작업 중 12개 작업을 견고하게 완료했습니다. 우리는 사전 훈련, 분류 없는 지침, 데이터 확장을 포함하여 다운스트림 성능의 주요 요소를 강조하는 실험적 증거를 제공합니다. 모델 가중치, 교육 스크립트 및 평가 도구를 포함한 모든 리소스를 추가 연구에 사용할 수 있습니다.
.
├── README.md
├── steve1
│ ├── All agent, dataset, and training code.
├── run_agent
│ ├── Scripts for running the agent.
├── train
│ ├── Script for training the agent and generating the dataset.
Python 3.10과 함께 conda 환경을 사용하여 Linux에서 실행하는 것이 좋습니다.
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
pip install minedojo git+https://github.com/MineDojo/MineCLIP
pip install git+https://github.com/minerllabs/[email protected]
pip install gym==0.19 gym3 attrs opencv-python
pip install gdown tqdm accelerate==0.18.0 wandb
steve1
로컬로 설치합니다 pip install -e .
헤드리스 서버에서 실행 중인 경우 xvfb
설치하고 xvfb-run
사용하여 각 Python 스크립트를 실행해야 합니다. 예를 들어 xvfb-run python script_name.py
입니다.
또한 MineDojo 환경이 아닌 MineRL 환경을 사용한다는 점에 유의하세요. 따라서 'MineDojo 설치' 지침에 언급된 대로 MINEDOJO_HEADLESS=1
설정하면 아무런 효과가 없습니다.
다음 명령을 실행하여 데이터와 가중치를 다운로드합니다.
. download_weights.sh
STEVE-1을 처음부터 훈련하려면 다음 단계를 실행하십시오.
. train/1_generate_dataset.sh
. train/2_create_sampling.sh
. train/3_train.sh
. train/4_train_prior.sh
다양한 프롬프트로 에이전트를 테스트하기 위해 두 개의 스크립트를 제공했습니다. 훈련된 에이전트를 테스트하려면 스크립트에서 --in_weights
인수를 수정하세요.
. run_agent/1_gen_paper_videos.sh
논문에 사용되는 비디오를 생성합니다.. run_agent/2_gen_vid_for_text_prompt.sh
임의의 텍스트 프롬프트에 대한 비디오를 생성합니다.. run_agent/3_run_interactive_session.sh
STEVE-1과의 대화형 세션을 시작합니다. 헤드리스 모드에서는 작동하지 않습니다. STEVE-1이 귀하의 연구에 유용하다고 생각하시면 저희 논문을 인용해 주세요.
@article{lifshitz2023steve1,
title={STEVE-1: A Generative Model for Text-to-Behavior in Minecraft},
author={Shalev Lifshitz and Keiran Paster and Harris Chan and Jimmy Ba and Sheila McIlraith},
year={2023},
eprint={2306.00937},
archivePrefix={arXiv},
primaryClass={cs.LG}
}