นี่คือการใช้งานสำหรับเอกสารของเรา Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning in Jax and Flax
โค้ดเบสนี้สร้างขึ้นบนพื้นที่เก็บข้อมูล JaxCQL
หากคุณพบว่าพื้นที่เก็บข้อมูลนี้มีประโยชน์สำหรับการวิจัยของคุณ โปรดอ้างอิง:
@article{nakamoto2023calql,
author = {Mitsuhiko Nakamoto and Yuexiang Zhai and Anikait Singh and Max Sobol Mark and Yi Ma and Chelsea Finn and Aviral Kumar and Sergey Levine},
title = {Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning},
conference = {arXiv Pre-print},
year = {2023},
url = {https://arxiv.org/abs/2303.05479},
}
mujoco210
และ mjkey.txt
ที่ดาวน์โหลดมาลงใน ~/.mujoco/mujoco210
และ ~/.mujoco/mjkey.txt
~/.bashrc
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HOME/.mujoco/mujoco210/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/lib/nvidia
$ conda create -c nvidia -n Cal-QL python=3.8 cuda-nvcc=11.3
$ conda activate Cal-QL
$ pip install -r requirements.txt
โค้ดเบสนี้แสดงภาพบันทึกโดยใช้น้ำหนักและอคติ หากต้องการเปิดใช้งานสิ่งนี้ คุณต้องตั้งค่าคีย์ W&B API ของคุณก่อนโดย:
wandb_config.py
ใต้โฟลเดอร์ JaxCQL
โดยกรอกข้อมูลต่อไปนี้ def get_wandb_config():
return dict (
WANDB_API_KEY = 'your api key',
WANDB_EMAIL = 'your email',
WANDB_USERNAME = 'user'
)
คุณสามารถคัดลอก JaxCQL/wandb_config_example.py เปลี่ยนชื่อเป็น wandb_config.py
และกรอกข้อมูล
คุณสามารถทำการทดลองได้โดยใช้คำสั่งต่อไปนี้:
$ bash scripts/run_antmaze.sh
โปรดตรวจสอบ scripts/run_antmaze.sh เพื่อดูรายละเอียด ตัวเลือกคำสั่งที่มีอยู่ทั้งหมดสามารถดูได้ใน conservative_sac_main.py และ conservative_sac.py
/demonstrations/offpolicy_hand_data/*.npy
mj_envs
จากทางแยกนี้ด้วย $ git clone --recursive https://github.com/nakamotoo/mj_envs.git
$ cd mj_envs
$ git submodule update --remote
$ pip install -e .
$ bash scripts/run_adroit.sh
โปรดตรวจสอบ scripts/run_adroit.sh เพื่อดูรายละเอียด
ในขณะนี้ พื้นที่เก็บข้อมูลนี้มีการใช้งาน AntMaze และ Adroit เท่านั้น FrankaKitchen มีแผนที่จะเพิ่มเร็วๆ นี้ แต่หากคุณรีบร้อนหรือต้องการลองงานอื่นๆ (เช่น โดเมนการปรับแต่งภาพในรายงาน) โปรดติดต่อฉันที่ nakamoto[at]berkeley[dot]edu
เพื่อให้ผู้อ่านรายอื่นสามารถจำลองผลลัพธ์ของเราได้อย่างง่ายดาย เราได้ดำเนินการกวาดล้าง Cal-QL และ CQL ในโดเมน AntMaze และ Adroit และเผยแพร่บันทึก W&B ที่เกี่ยวข้องต่อสาธารณะ สามารถดูบันทึกได้ที่นี่: https://wandb.ai/mitsuhiko/Cal-QL--Examples?workspace=user-mitsuhiko
คุณสามารถเลือกสภาพแวดล้อมเพื่อแสดงภาพได้โดยการยื่นไฟล์บน env
การรัน Cal-QL จะถูกระบุโดย enable-calql=True
และการรัน CQL จะถูกระบุโดย enable-calql=False
แต่ละสภาพแวดล้อมมีการเรียกใช้ใน 4 เมล็ด
โปรเจ็กต์นี้สร้างขึ้นบนพื้นที่เก็บข้อมูล JaxCQL ของ Young Geng การใช้งาน CQL ขึ้นอยู่กับ CQL
ในกรณีที่มีคำถาม ข้อบกพร่อง ข้อเสนอแนะ หรือการปรับปรุง โปรดติดต่อฉันได้ที่ nakamoto[at]berkeley[dot]edu