Implementasi ulang Coarse-to-fine Q-Network (CQN) , algoritma RL berbasis nilai yang efisien sampel untuk kontrol berkelanjutan, diperkenalkan di:
Pengendalian Berkelanjutan dengan Pembelajaran Penguatan Kasar hingga Halus
Younggyo Seo, Jafar Uruç, Stephen James
Ide utama kami adalah mempelajari agen RL yang memperbesar ruang tindakan berkelanjutan dengan cara yang kasar hingga halus, sehingga memungkinkan kami melatih agen RL berbasis nilai untuk kontrol berkelanjutan dengan beberapa tindakan terpisah di setiap tingkat.
Lihat halaman web proyek kami https://younggyo.me/cqn/ untuk informasi lebih lanjut.
Instal lingkungan conda:
conda env create -f conda_env.yml
conda activate cqn
Instal RLBench dan PyRep (versi terbaru pada tanggal 10 Juli 2024 harus digunakan). Ikuti panduan di repositori asli untuk (1) menginstal RLBench dan PyRep dan (2) mengaktifkan mode tanpa kepala. (Lihat README di RLBench & Robobase untuk informasi tentang cara menginstal RLBench.)
git clone https://github.com/stepjam/RLBench
git clone https://github.com/stepjam/PyRep
# Install PyRep
cd PyRep
git checkout 8f420be8064b1970aae18a9cfbc978dfb15747ef
pip install .
# Install RLBench
cd RLBench
git checkout b80e51feb3694d9959cb8c0408cd385001b01382
pip install .
Demonstrasi pra-pengumpulan
cd RLBench/rlbench
CUDA_VISIBLE_DEVICES=0 DISPLAY=:0.0 python dataset_generator.py --save_path=/your/own/directory --image_size 84 84 --renderer opengl3 --episodes_per_task 100 --variations 1 --processes 1 --tasks take_lid_off_saucepan --arm_max_velocity 2.0 --arm_max_acceleration 8.0
Jalankan eksperimen (CQN):
CUDA_VISIBLE_DEVICES=0 DISPLAY=:0.0 python train_rlbench.py rlbench_task=take_lid_off_saucepan num_demos=100 dataset_root=/your/own/directory
Jalankan eksperimen dasar (DrQv2+):
CUDA_VISIBLE_DEVICES=0 DISPLAY=:0.0 python train_rlbench_drqv2plus.py rlbench_task=take_lid_off_saucepan num_demos=100 dataset_root=/your/own/directory
Jalankan eksperimen:
CUDA_VISIBLE_DEVICES=0 python train_dmc.py dmc_task=cartpole_swingup
Peringatan: CQN tidak diuji secara ekstensif di DMC
Repositori ini didasarkan pada implementasi publik DrQ-v2
@article{seo2024continuous,
title={Continuous Control with Coarse-to-fine Reinforcement Learning},
author={Seo, Younggyo and Uru{c{c}}, Jafar and James, Stephen},
journal={arXiv preprint arXiv:2407.07787},
year={2024}
}