تعزيز التعلم: مقدمة
النسخ المتماثل لبايثون لكتاب ساتون وبارتو " التعلم المعزز: مقدمة" (الإصدار الثاني)
إذا كان لديك أي التباس بشأن الكود أو تريد الإبلاغ عن خطأ ما، فيرجى فتح مشكلة بدلاً من مراسلتي مباشرة عبر البريد الإلكتروني، ولسوء الحظ ليس لدي إجابات تدريبية للكتاب.
محتويات
الفصل 1
- تيك تاك تو
الفصل 2
- الشكل 2.1: مشكلة قطاع الطرق نموذجية من قاعدة الاختبار ذات 10 أذرع
- الشكل 2.2: متوسط أداء أساليب قيمة الفعل epsilon-greedy على قاعدة اختبار ذات 10 أذرع
- الشكل 2.3: التقديرات الأولية المتفائلة لقيمة الإجراء
- الشكل 2.4: متوسط أداء اختيار إجراء UCB على قاعدة الاختبار ذات 10 أذرع
- الشكل 2.5: متوسط أداء خوارزمية قطاع الطرق التدرج
- الشكل 2.6: دراسة معلمات خوارزميات قطاع الطرق المختلفة
الفصل 3
- الشكل 3.2: مثال على الشبكة مع سياسة عشوائية
- الشكل 3.5: الحلول المثلى لمثال عالم الشبكة
الفصل 4
- الشكل 4.1: تقارب تقييم السياسات التكراري في عالم شبكي صغير
- الشكل 4.2: مشكلة استئجار سيارة جاك
- الشكل 4.3: حل مشكلة المقامر
الفصل 5
- الشكل 5.1: وظائف قيمة الحالة التقريبية لسياسة لعبة البلاك جاك
- الشكل 5.2: السياسة المثلى ووظيفة قيمة الدولة للعبة البلاك جاك التي وجدتها Monte Carlo ES
- الشكل 5.3: أخذ العينات ذات الأهمية المرجحة
- الشكل 5.4: أخذ العينات ذات الأهمية العادية مع تقديرات غير مستقرة بشكل مدهش
الفصل 6
- مثال 6.2: المشي العشوائي
- الشكل 6.2: تحديث الدفعة
- الشكل 6.3: تطبيق سارسا على عالم الشبكة العاصفة
- الشكل 6.4: مهمة المشي على الجرف
- الشكل 6.6: الأداء المؤقت والمقارب لطرق التحكم في TD
- الشكل 6.7: مقارنة بين Q-learning وQ-learning المزدوج
الفصل 7
- الشكل 7.2: أداء طرق TD ذات الخطوة n في المشي العشوائي المكون من 19 حالة
الفصل 8
- الشكل 8.2: متوسط منحنيات التعلم لوكلاء Dyna-Q يختلفون في عدد خطوات التخطيط الخاصة بهم
- الشكل 8.4: متوسط أداء وكلاء Dyna في مهمة الحظر
- الشكل 8.5: متوسط أداء وكلاء Dyna في مهمة مختصرة
- المثال 8.4: يؤدي الكنس ذو الأولوية إلى تقصير وقت التعلم بشكل كبير في مهمة متاهة Dyna
- الشكل 8.7: مقارنة كفاءة التحديثات المتوقعة والعينية
- الشكل 8.8: الكفاءة النسبية لتوزيعات التحديث المختلفة
الفصل 9
- الشكل 9.1: خوارزمية مونت كارلو التدرجية في مهمة المشي العشوائي المكونة من 1000 حالة
- الشكل 9.2: خوارزمية TD شبه متدرجة n-steps في مهمة المشي العشوائي ذات 1000 حالة
- الشكل 9.5: أساس فورييه مقابل كثيرات الحدود في مهمة المشي العشوائي ذات 1000 حالة
- الشكل 9.8: مثال على تأثير عرض الميزة على التعميم الأولي والدقة المقاربة
- الشكل 9.10: التبليط المفرد والتبليط المتعدد في مهمة السير العشوائي ذات 1000 حالة
الفصل 10
- الشكل 10.1: دالة تكلفة الذهاب لمهمة Mountain Car في تشغيل واحد
- الشكل 10.2: منحنيات التعلم لمهمة Sarsa شبه التدرج في Mountain Car
- الشكل 10.3: أداء خطوة واحدة مقابل أداء متعدد الخطوات لـ Sarsa شبه التدرج في مهمة Mountain Car
- الشكل 10.4: تأثير alpha و n على الأداء المبكر لـ Sarsa شبه التدرج n
- الشكل 10.5: Sarsa التفاضلي شبه المتدرج في مهمة قائمة انتظار التحكم في الوصول
الفصل 11
- الشكل 11.2: مثال بيرد المضاد
- الشكل 11.6: سلوك خوارزمية TDC في المثال المضاد لبيرد
- الشكل 11.7: سلوك خوارزمية ETD في التوقع على مثال بيرد المضاد
الفصل 12
- الشكل 12.3: خوارزمية الإرجاع خارج الخط على المشي العشوائي لـ 19 حالة
- الشكل 12.6: خوارزمية TD(π) على السير العشوائي المكون من 19 حالة
- الشكل 12.8: خوارزمية TD(π) الحقيقية عبر الإنترنت في المشي العشوائي المكون من 19 حالة
- الشكل 12.10: Sarsa(κ) مع استبدال الآثار على Mountain Car
- الشكل 12.11: مقارنة ملخصة لخوارزميات Sarsa(π) على Mountain Car
الفصل 13
- مثال 13.1: ممر قصير مع إجراءات مبدلة
- الشكل 13.1: التعزيز في عالم شبكة الممرات القصيرة
- الشكل 13.2: التعزيز بخط الأساس في عالم الشبكة ذات الممر القصير
بيئة
- بيثون 3.6
- numpy
- matplotlib
- Seaborn
- تقدم
الاستخدام
جميع الملفات مكتفية ذاتيا
python any_file_you_want.py
مساهمة
إذا كنت تريد المساهمة ببعض الأمثلة المفقودة أو إصلاح بعض الأخطاء، فلا تتردد في فتح مشكلة أو تقديم طلب سحب.