รหัสและข้อมูลสำหรับกระดาษ รักษาความสงบและสำรวจ: โมเดลภาษาสำหรับการสร้างแอคชั่นในเกมที่ใช้ข้อความที่ EMNLP 2020
ชุดข้อมูล ClubFloyd ของเรา ( calm/lm_data.zip
) ได้รับการรวบรวมข้อมูลจากเว็บไซต์ ClubFloyd และมีสำเนาการเล่นเกมของมนุษย์ 426 รายการ ซึ่งครอบคลุมเกมแบบข้อความ 590 เกมในประเภทและสไตล์ที่หลากหลาย
ข้อมูลประกอบด้วยคู่การกระทำตามบริบท 223,527 คู่ในรูปแบบ [CLS] observation [SEP] action [SEP] next observation [SEP] next action [SEP]
เราใช้ [CLS] observation [SEP] action [SEP] next observation [SEP]
เป็นบริบทในการฝึกแบบจำลองภาษา (n-gram, GPT-2) เพื่อทำนาย next action [SEP]
และแสดงให้เห็นว่าความสามารถในการสร้างการกระทำนี้เป็นลักษณะทั่วไป เพื่อ เกมที่มองไม่เห็น และสนับสนุนการเล่นเกมเมื่อรวมกับการเรียนรู้แบบเสริมกำลัง
pip install torch==1.4 transformers==2.5.1 jericho fasttext wandb importlib_metadata
git clone https://github.com/princeton-nlp/calm-textgame && cd calm-textgame
ln -s ../lm calm && ln -s ../lm drrn
(หากการติดตั้ง pip ล้มเหลวสำหรับ fasttext ให้ลองขั้นตอนการสร้างที่นี่: https://github.com/facebookresearch/fastText#building-fasttext-for-python)
cd calm
unzip lm_data.zip
python train.py
สามารถดาวน์โหลดตุ้มน้ำหนักแบบจำลองที่ผ่านการฝึกอบรมได้ที่นี่สำหรับทั้งรุ่น GPT-2 และ n-gram
cd ../drrn
python train.py --rom_path ../games/ ${GAME} --lm_path ${PATH_TO_CALM} --lm_type ${gpt_or_ngram}
from lm import GPT2LM
model = GPT2LM ( "model_weights/gpt2" )
print ( model . generate ( "[CLS] observation [SEP] action [SEP] next observation [SEP]" , k = 30 ))
@inproceedings{yao2020calm,
title={Keep CALM and Explore: Language Models for Action Generation in Text-based Games},
author={Yao, Shunyu and Rao, Rohan and Hausknecht, Matthew and Narasimhan, Karthik},
booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
year={2020}
}
ขอบคุณ Jacqueline สำหรับการโฮสต์เว็บไซต์ ClubFloyd ที่ยอดเยี่ยมและอนุญาตให้เราใช้งาน!
รหัสยืมมาจาก TDQN (สำหรับส่วน RL) และ Huggingface Transformers (สำหรับส่วน CALM)
หากมีคำถามใด ๆ โปรดติดต่อ Shunyu Yao <[email protected]>