إعادة تنفيذ شبكة Q-Network (CQN) من الخشن إلى الدقيق ، وهي خوارزمية RL قائمة على القيمة وفعالة للتحكم المستمر، تم تقديمها في:
التحكم المستمر من خلال التعلم المعزز من الخشن إلى الناعم
يونججيو سيو، جعفر أوروج، ستيفن جيمس
فكرتنا الرئيسية هي تعلم وكلاء RL الذين يقومون بتكبير مساحة العمل المستمر بطريقة خشنة إلى دقيقة، مما يمكننا من تدريب وكلاء RL القائمين على القيمة للتحكم المستمر مع عدد قليل من الإجراءات المنفصلة على كل مستوى.
راجع صفحة الويب لمشروعنا https://younggyo.me/cqn/ لمزيد من المعلومات.
تثبيت بيئة كوندا:
conda env create -f conda_env.yml
conda activate cqn
قم بتثبيت RLBench وPyRep (يجب استخدام أحدث الإصدارات بتاريخ 10 يوليو 2024). اتبع الدليل الموجود في المستودعات الأصلية لـ (1) تثبيت RBench وPyRep و(2) تمكين وضع مقطوعة الرأس. (راجع الملف README في RBench & Robobase للحصول على معلومات حول تثبيت RLBench.)
git clone https://github.com/stepjam/RLBench
git clone https://github.com/stepjam/PyRep
# Install PyRep
cd PyRep
git checkout 8f420be8064b1970aae18a9cfbc978dfb15747ef
pip install .
# Install RLBench
cd RLBench
git checkout b80e51feb3694d9959cb8c0408cd385001b01382
pip install .
قبل جمع المظاهرات
cd RLBench/rlbench
CUDA_VISIBLE_DEVICES=0 DISPLAY=:0.0 python dataset_generator.py --save_path=/your/own/directory --image_size 84 84 --renderer opengl3 --episodes_per_task 100 --variations 1 --processes 1 --tasks take_lid_off_saucepan --arm_max_velocity 2.0 --arm_max_acceleration 8.0
تشغيل التجارب (CQN):
CUDA_VISIBLE_DEVICES=0 DISPLAY=:0.0 python train_rlbench.py rlbench_task=take_lid_off_saucepan num_demos=100 dataset_root=/your/own/directory
تشغيل تجارب خط الأساس (DrQv2+):
CUDA_VISIBLE_DEVICES=0 DISPLAY=:0.0 python train_rlbench_drqv2plus.py rlbench_task=take_lid_off_saucepan num_demos=100 dataset_root=/your/own/directory
إجراء التجارب:
CUDA_VISIBLE_DEVICES=0 python train_dmc.py dmc_task=cartpole_swingup
تحذير: لم يتم اختبار CQN على نطاق واسع في DMC
يعتمد هذا المستودع على التنفيذ العام لـ DrQ-v2
@article{seo2024continuous,
title={Continuous Control with Coarse-to-fine Reinforcement Learning},
author={Seo, Younggyo and Uru{c{c}}, Jafar and James, Stephen},
journal={arXiv preprint arXiv:2407.07787},
year={2024}
}