صفحة الويب: https://serl-robot.github.io/
يوفر SERL مجموعة من المكتبات وأغلفة البيئة والأمثلة لتدريب سياسات RL على مهام المعالجة الآلية. تصف الأقسام التالية كيفية استخدام SERL. وسنوضح الاستخدام مع الأمثلة.
?: فيديو SERL، فيديو إضافي على نموذج RL الفعال.
جدول المحتويات
SERL: مجموعة برامج للتعلم المعزز الآلي ذو الكفاءة في استخدام العينات
تثبيت
نظرة عامة وهيكل التعليمات البرمجية
البدء السريع مع SERL في Sim
اركض مع Franka Arm على Real Robot
مساهمة
الاقتباس
بالنسبة للأشخاص الذين يستخدمون SERL للمهام التي تتضمن التحكم في المقبض (على سبيل المثال، التقاط الأشياء)، نوصي بشدة بإضافة عقوبة صغيرة لتغيير إجراء المقبض، حيث سيؤدي ذلك إلى تحسين سرعة التدريب بشكل كبير. لمزيد من التفاصيل، يرجى الرجوع إلى: ع ر #65.
علاوة على ذلك، نوصي أيضًا بتقديم المداخلات عبر الإنترنت أثناء التدريب بالإضافة إلى تحميل العروض التوضيحية دون الاتصال بالإنترنت. إذا كان لديك روبوت Franka وSpaceMouse، فقد يكون ذلك سهلاً مثل مجرد لمس SpaceMouse أثناء التدريب.
لقد أصلحنا مشكلة رئيسية في إطار عمل التدخل. راجع الإصدار v0.1.1 يرجى تحديث الرمز الخاص بك مع الفرع الرئيسي.
إعداد بيئة كوندا: قم بإنشاء بيئة بها
conda create -n serl python=3.10
قم بتثبيت Jax على النحو التالي:
لوحدة المعالجة المركزية (غير مستحسن):
تثبيت النقطة - ترقية "jax [وحدة المعالجة المركزية]"
بالنسبة لوحدة معالجة الرسومات:
تثبيت النقطة - ترقية "jax[cuda12]==0.4.28" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
ل تي بي يو
تثبيت النقطة - ترقية "jax[tpu]" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html
راجع صفحة Jax Github لمزيد من التفاصيل حول تثبيت Jax.
قم بتثبيت serl_launcher
قرص مضغوط serl_launcher تثبيت النقطة -e .pip تثبيت -r متطلبات.txt
يوفر SERL مجموعة من المكتبات الشائعة للمستخدمين لتدريب سياسات RL على مهام المعالجة الآلية. يتضمن الهيكل الرئيسي لتشغيل تجارب RL وجود عقدة ممثل وعقدة متعلم، وكلاهما يتفاعل مع بيئة الصالة الرياضية الروبوتية. تعمل كلا العقدتين بشكل غير متزامن، حيث يتم إرسال البيانات من الممثل إلى عقدة المتعلم عبر الشبكة باستخدام agentlace. سيقوم المتعلم بشكل دوري بمزامنة السياسة مع الممثل. يوفر هذا التصميم المرونة للتدريب والاستدلال الموازي.
جدول لبنية التعليمات البرمجية
دليل الكود | وصف |
---|---|
serl_launcher | الرمز الرئيسي لـ SERL |
serl_launcher.agents | سياسات الوكيل (مثل DRQ وSAC وBC) |
serl_launcher.wrappers | أغلفة بيئة الصالة الرياضية |
serl_launcher.data | إعادة تشغيل المخزن المؤقت ومخزن البيانات |
serl_launcher.vision | النماذج والاستخدامات المتعلقة بالرؤية |
Franka_sim | بيئة صالة الألعاب الرياضية محاكاة فرانكا موجوكو |
serl_robot_infra | روبوت يعمل بالأشعة تحت الحمراء للتشغيل مع الروبوتات الحقيقية |
serl_robot_infra.robot_servers | خادم Flask لإرسال الأوامر إلى الروبوت عبر ROS |
serl_robot_infra.franka_env | بيئة الصالة الرياضية لروبوت فرانكا الحقيقي |
نحن نوفر بيئة محاكاة لتجربة SERL باستخدام روبوت فرانكا.
تحقق من البداية السريعة مع SERL في Sim
التدريب من مثال مراقبة الدولة
التدريب من مثال مراقبة الصورة
التدريب من مراقبة الصور مع 20 مثال للمسارات التجريبية
نحن نقدم دليلاً خطوة بخطوة لتشغيل سياسات RL مع SERL على روبوت Franka الحقيقي.
ألق نظرة على لعبة Run with Franka Arm على Real Robot
إدخال الوتد؟
إدراج مكون ثنائي الفينيل متعدد الكلور
توجيه الكابل؟
نقل الكائن؟️
نحن نرحب بالمساهمات في هذا المستودع! قم بالشوكة وأرسل PR إذا كان لديك أي تحسينات على قاعدة التعليمات البرمجية. قبل إرسال العلاقات العامة، يرجى تشغيل pre-commit run --all-files
للتأكد من تنسيق قاعدة التعليمات البرمجية بشكل صحيح.
إذا كنت تستخدم هذا الرمز لبحثك، يرجى الاستشهاد بمقالتنا:
@misc{luo2024serl, title={SERL: مجموعة برامج للتعلم المعزز الآلي ذو العينات الفعالة}، المؤلف={Jianlan Luo وZheyuan Hu وCharles Xu and You Liang Tan وJacob Berg وArchit Sharma وStefan Schaal وChelsea Finn and أبهيشيك غوبتا وسيرجي ليفين}، العام={2024}، eprint={2401.16013}, archivePrefix={arXiv}, PrimaryClass={cs.RO}}