شاليف ليفشيتز*، كيران باستر*، هاريس تشان†، جيمي با، شيلا ماكلريث
صفحة المشروع | اركايف | قوات الدفاع الشعبي
يعد إنشاء نماذج الذكاء الاصطناعي التي تستجيب للتعليمات النصية أمرًا صعبًا، خاصة بالنسبة لمهام اتخاذ القرار المتسلسلة. يقدم هذا العمل منهجية مستوحاة من unCLIP، لنماذج السلوك التوليدية لضبط التعليمات دون الاعتماد على مجموعة بيانات كبيرة من المسارات المسماة بالتعليمات. باستخدام هذه المنهجية، قمنا بإنشاء نموذج تدريب مسبق للفيديو (VPT) تم ضبطه بواسطة التعليمات يسمى STEVE-1، والذي يمكنه اتباع نص مفتوح قصير الأفق وتعليمات مرئية في Minecraft™. يتم تدريب STEVE-1 على خطوتين: تكييف نموذج VPT المُدرب مسبقًا لمتابعة الأوامر في المساحة الكامنة لـ MineCLIP، ثم التدريب مسبقًا على التنبؤ بالرموز الكامنة من النص. يتيح لنا ذلك ضبط VPT من خلال الاستنساخ السلوكي الخاضع للإشراف الذاتي وإعادة التسمية بعد فوات الأوان، مما يقلل الحاجة إلى التعليقات التوضيحية للنص البشري المكلفة، وكل ذلك مقابل 60 دولارًا فقط من الحوسبة. من خلال الاستفادة من النماذج المدربة مسبقًا مثل VPT وMineCLIP وتوظيف أفضل الممارسات من إنشاء صور مكيفة بالنص، يضع STEVE-1 شريطًا جديدًا لمتابعة التعليمات المفتوحة في Minecraft مع عناصر تحكم منخفضة المستوى (الماوس ولوحة المفاتيح) ومدخلات البكسل الأولية. يتفوق بشكل كبير على الخطوط الأساسية السابقة ويكمل بقوة 12 من 13 مهمة في مجموعة تقييم اللعبة المبكرة لدينا. نحن نقدم أدلة تجريبية تسلط الضوء على العوامل الرئيسية للأداء النهائي، بما في ذلك التدريب المسبق والتوجيه الخالي من المصنفات وتوسيع نطاق البيانات. جميع الموارد، بما في ذلك الأوزان النموذجية ونصوص التدريب وأدوات التقييم متاحة لمزيد من البحث.
.
├── README.md
├── steve1
│ ├── All agent, dataset, and training code.
├── run_agent
│ ├── Scripts for running the agent.
├── train
│ ├── Script for training the agent and generating the dataset.
نوصي بالتشغيل على Linux باستخدام بيئة conda، مع python 3.10.
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
pip install minedojo git+https://github.com/MineDojo/MineCLIP
pip install git+https://github.com/minerllabs/[email protected]
pip install gym==0.19 gym3 attrs opencv-python
pip install gdown tqdm accelerate==0.18.0 wandb
steve1
محليًا باستخدام: pip install -e .
إذا كنت تعمل على خادم بدون رأس، فستحتاج إلى تثبيت xvfb
وتشغيل كل نص برمجي من نوع python باستخدام xvfb-run
. على سبيل المثال، xvfb-run python script_name.py
.
لاحظ أيضًا أننا نستخدم بيئة MineRL، وليس بيئة MineDojo. وبالتالي، فإن إعداد MINEDOJO_HEADLESS=1
كما هو مذكور في تعليمات 'تثبيت MineDojo' لن يكون له أي تأثير.
قم بتشغيل الأمر التالي لتنزيل البيانات والأوزان:
. download_weights.sh
لتدريب STEVE-1 من الصفر، يرجى تنفيذ الخطوات التالية:
. train/1_generate_dataset.sh
. train/2_create_sampling.sh
. train/3_train.sh
. train/4_train_prior.sh
لقد قدمنا نصين لاختبار الوكيل بمطالبات مختلفة. لاختبار الوكلاء المدربين لديك، يرجى تعديل الوسيطة --in_weights
في البرامج النصية.
. run_agent/1_gen_paper_videos.sh
لإنشاء مقاطع الفيديو المستخدمة في الورقة.. run_agent/2_gen_vid_for_text_prompt.sh
لإنشاء مقاطع فيديو لمطالبات نصية عشوائية.. run_agent/3_run_interactive_session.sh
لبدء جلسة تفاعلية مع STEVE-1. هذا لن يعمل في وضع مقطوعة الرأس. يرجى الاستشهاد بمقالتنا إذا وجدت STEVE-1 مفيدًا لبحثك:
@article{lifshitz2023steve1,
title={STEVE-1: A Generative Model for Text-to-Behavior in Minecraft},
author={Shalev Lifshitz and Keiran Paster and Harris Chan and Jimmy Ba and Sheila McIlraith},
year={2023},
eprint={2306.00937},
archivePrefix={arXiv},
primaryClass={cs.LG}
}