التعلم المعزز التطبيقي
لقد كنت أدرس التعلم المعزز وصنع القرار لبضع سنوات حتى الآن. أحد أصعب الأمور التي واجهتها لا يتعلق بالضرورة بالمفاهيم، بل بكيفية شرح هذه المفاهيم. بالنسبة لي، التعلم يحدث عندما يكون الشخص قادرًا على التواصل مع المفاهيم التي يتم تدريسها. لهذا، غالبًا ما يكون هناك حاجة إلى تفسير بديهي، ومن المحتمل أن يساعد النهج العملي في بناء هذا النوع من الفهم.
هدفي من هذا المستودع هو إنشاء مورد، مع المجتمع، من شأنه أن يساعد القادمين الجدد على فهم التعلم المعزز بطريقة بديهية. ضع في اعتبارك ما تراه هنا محاولتي الأولية لتعليم بعض هذه المفاهيم بشكل واضح وبسيط بقدر ما أستطيع شرحها.
إذا كنت ترغب في التعاون، سواء كان خطأ مطبعي، أو إضافة كاملة إلى النص، أو ربما إصلاح دفتر ملاحظات أو دفتر ملاحظات جديد بالكامل، فلا تتردد في إرسال مشكلتك و/أو طلب السحب لتحسين الأمور. طالما أن طلب السحب الخاص بك يتوافق مع هدف المستودع، فمن المحتمل جدًا أن نقوم بالدمج. أنا لست أفضل معلم، أو باحث في التعلم المعزز، لكنني أعتقد أنه يمكننا جعل التعلم المعزز واتخاذ القرار سهلاً على أي شخص أن يفهمه. حسنا، على الأقل أسهل.
جدول المحتويات
- تركيب دفاتر الملاحظات
- قم بتثبيت البوابة
- قم بتثبيت عامل الميناء
- تشغيل دفاتر الملاحظات
- ليرة تركية؛ نسخة DR
- نسخة أكثر تفصيلا قليلا:
- افتح دفاتر الملاحظات في متصفحك:
- افتح TensorBoard على العنوان التالي:
- نصائح عامل الميناء
- الجزء الأول: المقدمة
- 1. مقدمة في اتخاذ القرار
- 1.1 اتخاذ القرار
- 1.2 مزيد من القراءة
- الجزء الثاني: تعزيز التعلم وصنع القرار
- 2. القرارات المتتابعة
- 2.1 نمذجة مشاكل اتخاذ القرار
- 2.2 تمثيل الحلول
- 2.3 مشكلة تسلسلية بسيطة
- 2.4 مشاكل أكثر تعقيدًا قليلاً
- 2.5 تقييم الحلول
- 2.6 تحسين الحلول
- 2.7 إيجاد الحلول المثلى
- 2.8 تحسين تكرار السياسة
- 2.9 التمارين
- 2.10 مزيد من القراءة
- 3. الإجراءات الحتمية والعشوائية
- 3.1 لا يمكننا السيطرة على العالم بشكل كامل
- 3.2 التعامل مع العشوائية
- 3.3 التمارين
- 3.4 مزيد من القراءة
- 4. البيئات المعروفة وغير المعروفة
- 4.1 ماذا لو لم يكن لدينا نموذج للبيئة؟
- 4.2 الحاجة إلى الاستكشاف
- 4.3 ماذا نتعلم؟
- 4.4 ماذا نفعل بما نتعلمه؟
- 4.5 إضافة عشوائية صغيرة إلى أفعالك
- 4.6 التمارين
- 4.7 مزيد من القراءة
- الجزء الثالث: اتخاذ القرار في المشكلات الصعبة
- 5. الدول المنفصلة والمستمرة
- 5.1 كبير جدًا بحيث لا يمكن الاحتفاظ به في الذاكرة
- 5.2 تقسيم مساحة الدولة
- 5.3 استخدام تقريب الوظيفة
- 5.4 التمارين
- 5.5 مزيد من القراءة
- 6. الإجراءات المنفصلة والمستمرة
- 6.1 مساحة العمل المستمر
- 6.2 تقدير مساحة العمل
- 6.3 استخدام تقريب الوظيفة
- 6.4 البحث عن السياسة
- 6.5 التمارين
- 6.6 مزيد من القراءة
- 7. الدول التي يمكن ملاحظتها والتي يمكن ملاحظتها جزئيًا
- 7.1 هل ما نراه هو ما هو عليه؟
- 7.2 تقدير الدولة
- 7.3 التحكم في البيئات التي يمكن ملاحظتها جزئيًا
- 7.4 مزيد من القراءة
- الجزء الرابع: تعدد وكلاء اتخاذ القرار
- 8. الوكلاء الفرديون والمتعددون
- 8.1 الوكلاء الذين لديهم نفس الأهداف
- 8.2 ماذا يحدث عندما يكون هناك وكلاء آخرون في اللعب؟
- 8.3 مزيد من القراءة
- 9. الوكلاء المتعاونون والمتخاصمون
- 9.1 الوكلاء ذوو الأهداف المتضاربة
- 9.2 فرق الوكلاء ذات الأهداف المتضاربة
- 9.3 مزيد من القراءة
- الجزء الخامس: صنع القرار البشري وما بعده
- 10. اتخاذ القرار والبشر
- 10.1 أوجه التشابه بين الأساليب التي تمت مناقشتها والبشر
- 10.2 الاختلافات بين الأساليب التي تمت مناقشتها والبشر
- 10.3 مزيد من القراءة
- 11. الاستنتاج
- 12. الكتب الموصى بها
- 12. الدورات الموصى بها
تركيب دفاتر الملاحظات
يحتوي هذا المستودع على دفاتر ملاحظات Jupyter لمتابعة المحاضرات. ومع ذلك، هناك العديد من الحزم والتطبيقات التي تحتاج إلى التثبيت. لتسهيل الأمور عليك، استغرقت وقتًا أطول قليلاً لإعداد بيئة قابلة للتكرار يمكنك استخدامها للمتابعة.
قم بتثبيت البوابة
اتبع التعليمات الموجودة على (https://git-scm.com/book/en/v2/Getting-Started-Installing-Git)
قم بتثبيت عامل الميناء
اتبع التعليمات الموجودة على (https://docs.docker.com/engine/getstarted/step_one/#step-2-install-docker)
تشغيل دفاتر الملاحظات
ليرة تركية؛ نسخة DR
-
git clone [email protected]:mimoralea/applied-reinforcement-learning.git && cd applied-reinforcement-learning
-
docker pull mimoralea/openai-gym:v1
-
docker run -it --rm -p 8888:8888 -p 6006:6006 -v $PWD/notebooks/:/mnt/notebooks/ mimoralea/openai-gym:v1
نسخة أكثر تفصيلا قليلا:
- انسخ المستودع إلى الموقع المطلوب (على سبيل المثال
git clone [email protected]:mimoralea/applied-reinforcement-learning.git ~/Projects/applied-reinforcement-learning
) - أدخل في دليل المستودع (على سبيل المثال
cd ~/Projects/applied-reinforcement-learning
) - قم ببناء نفسك أو اسحب حاوية Docker المبنية بالفعل:
3.1. لإنشائه استخدم الأمر التالي: docker build -t mimoralea/openai-gym:v1 .
3.2. لسحبه من Docker hub، استخدم: docker pull mimoralea/openai-gym:v1
- قم بتشغيل الحاوية:
docker run -it --rm -p 8888:8888 -p 6006:6006 -v $PWD/notebooks/:/mnt/notebooks/ mimoralea/openai-gym:v1
افتح دفاتر الملاحظات في متصفحك:
-
http://localhost:8888
(أو اتبع الرابط الذي خرج من أمر التشغيل والذي سيتضمن الرمز المميز)
افتح TensorBoard على العنوان التالي:
سيساعدك هذا على تصور الشبكة العصبية في الدروس مع تقريب الوظيفة.
نصائح عامل الميناء
- إذا كنت ترغب في الوصول إلى جلسة bash لحاوية قيد التشغيل، فقم بما يلي:
** سيُظهر لك docker ps
# الحاويات قيد التشغيل حاليًا - لاحظ معرف الحاوية التي تحاول الوصول إليها
** docker exec --user root -it c3fbc82f1b49 /bin/bash
# في هذه الحالة c3fbc82f1b49 هو المعرف - إذا كنت ترغب في بدء مثيل حاوية جديد مباشرة في bash (بدون تشغيل Jupyter أو TensorBoard)
** docker run -it --rm mimoralea/openai-gym:v1 /bin/bash
# سيؤدي هذا إلى تشغيل جلسة bash كمستخدم للكمبيوتر المحمول
** docker run --user root -e GRANT_SUDO=yes -it --rm mimoralea/openai-gym:v1 /bin/bash
# سيؤدي هذا إلى تشغيل جلسة bash كجذر