دورة في التعلم التعزيز العميق
استكشاف مزيج من الشبكة العصبية والتعلم المعزز. الخوارزميات والأمثلة في Python & PyTorch
هل سمعت عن النتائج المذهلة التي حققها Deepmind مع AlphaGo Zero وOpenAI في Dota 2؟ الأمر كله يتعلق بالشبكات العصبية العميقة والتعلم المعزز. هل تريد معرفة المزيد عنها؟
هذه هي الفرصة المناسبة لك لتتعلم أخيرًا Deep RL واستخدامها في مشاريع وتطبيقات جديدة ومثيرة.
ستجد هنا مقدمة متعمقة لهذه الخوارزميات. من بينها ستتعلم تعلم q، وتعلم q العميق، وPPO، والناقد الممثل، وتنفيذها باستخدام Python وPyTorch.
الهدف النهائي هو استخدام هذه التقنيات ذات الأغراض العامة وتطبيقها على جميع أنواع مشاكل العالم الحقيقي المهمة. ديميس هاسابيس
يحتوي هذا المستودع على:
محاضرات (ومحتوى آخر) من قناة DeepMind وBerkley على Youtube بشكل أساسي.
الخوارزميات (مثل DQN وA2C وPPO) تم تنفيذها في PyTorch وتم اختبارها على OpenAI Gym: RoboSchool & Atari.
تابعني وتابعني على #60DaysRLChallenge
الآن لدينا أيضًا قناة Slack . للحصول على دعوة، أرسل لي بريدًا إلكترونيًا على [email protected]. راسلني أيضًا عبر البريد الإلكتروني إذا كان لديك أي فكرة أو اقتراح أو تحسين.
لتعلم التعلم العميق أو رؤية الكمبيوتر أو معالجة اللغات الطبيعية، تحقق من رحلتي لمدة عام في تعلم الآلة
قبل البدء.. المتطلبات الأساسية
- المستوى الأساسي لبايثون وPyTorch
- التعلم الآلي
- المعرفة الأساسية في التعلم العميق (MLP وCNN وRNN)
ملاحظة سريعة: كتابي الجديد صدر!
لتتعلم التعلم المعزز و Deep RL بمزيد من التعمق، راجع كتابي خوارزميات التعلم المعزز باستخدام بايثون !!
جدول المحتويات
- مشهد التعلم المعزز
- تنفيذ دورة RL وOpenAI Gym
- حل المشاكل مع البرمجة الديناميكية
- Q التعلم وتطبيقات SARSA
- شبكة Q العميقة
- تعلم التحسين العشوائي وDDPG
- تنفيذ TRPO وPPO
- تطبيقات DDPG وTD3
- RL القائم على النموذج
- التعلم بالتقليد باستخدام خوارزمية DAgger
- فهم خوارزميات تحسين الصندوق الأسود
- تطوير خوارزمية ESBAS
- التنفيذ العملي لحل تحديات RL
الفهرس - التعلم المعزز
- الأسبوع 1 - مقدمة
- الأسبوع 2 - أساسيات RL
- الأسبوع 3 - الخوارزميات القائمة على القيمة - DQN
- الأسبوع 4 - خوارزميات تدرج السياسة - التعزيز وA2C
- الأسبوع الخامس – تدرجات السياسة المتقدمة – PPO
- الأسبوع السادس - استراتيجيات التطور والخوارزميات الجينية - إس
- الأسبوع السابع - التعلم المعزز القائم على النموذج - MB-MF
- الأسبوع الثامن - مفاهيم متقدمة ومشروع من اختيارك
- آخر 4 أيام - المراجعة + المشاركة
- أفضل الموارد
- موارد إضافية
الأسبوع 1 - مقدمة
- لماذا يعد التعلم المعزز طريقة تعليمية مهمة - شرح بسيط
- مقدمة ونظرة عامة على الدورة - CS294 من تأليف ليفين، بيركلي
- التعلم المعزز العميق: بونغ من بكسل بواسطة كارباثي
موارد أخرى
- "الكتاب المقدس" للتعلم المعزز: الفصل الأول - ساتون وبارتو
- ورقة تمهيدية رائعة: التعلم المعزز العميق: نظرة عامة
- ابدأ البرمجة: من الصفر: قانون موازنة الذكاء الاصطناعي في 50 سطرًا من لغة بايثون
الأسبوع الثاني - أساسيات RL: MDP والبرمجة الديناميكية والتحكم بدون نماذج
أولئك الذين لا يستطيعون تذكر الماضي محكوم عليهم بتكراره. - جورج سانتايانا
سنتعرف هذا الأسبوع على العناصر الأساسية للتعلم المعزز، بدءًا من تعريف المشكلة وصولاً إلى تقدير وتحسين الوظائف المستخدمة للتعبير عن جودة السياسة أو الحالة.
محاضرات - نظرية
- عملية اتخاذ القرار ماركوف - ديفيد سيلفر (DeepMind)
- عمليات ماركوف
- عمليات اتخاذ القرار ماركوف
- التخطيط بالبرمجة الديناميكية - ديفيد سيلفر (ديب مايند)
- تكرار السياسة
- تكرار القيمة
- التنبؤ بدون نموذج - ديفيد سيلفر (DeepMind)
- تعلم مونت كارلو
- تعلم الفرق الزمني
- تد( )
- التحكم بدون نموذج - ديفيد سيلفر (DeepMind)
- Ɛ-تكرار السياسة الجشع
- بحث GLIE مونت كارلو
- سارسا
- أخذ العينات ذات الأهمية
مشروع الأسبوع - Q-learning
تطبيق Q-learning على FrozenLake - للتمرين، يمكنك حل اللعبة باستخدام SARSA أو تنفيذ Q-learning بنفسك. في الحالة الأولى، هناك حاجة إلى تغييرات قليلة فقط.
موارد أخرى
- "الكتاب المقدس" للتعلم المعزز: الفصلين 3 و 4 - ساتون وبارتو
- مقدمة عن وظائف القيمة - DRL UC Berkley بقلم سيرجي ليفين
الأسبوع 3 - الخوارزميات القائمة على القيمة - DQN
سنتعلم هذا الأسبوع المزيد من المفاهيم المتقدمة ونطبق الشبكة العصبية العميقة على خوارزميات التعلم Q.
محاضرات - نظرية
- تقريب دوال القيمة - ديفيد سيلفر (DeepMind)
- مقاربات الوظائف القابلة للتفاضل
- الأساليب التزايدية
- طرق الدفعة (DQN)
- خوارزميات Q-Learning المتقدمة - سيرجي ليفين (جامعة كاليفورنيا في بيركلي)
- إعادة تشغيل المخزن المؤقت
- التعلم Q المزدوج
- الإجراءات المستمرة (NAF،DDPG)
- نصائح عملية
مشروع الأسبوع – DQN ومتغيراتها
DQN وبعض المتغيرات المطبقة على Pong - الهدف هذا الأسبوع هو تطوير خوارزمية DQN للعب لعبة Atari. ولجعل الأمر أكثر إثارة للاهتمام، قمت بتطوير ثلاثة امتدادات لـ DQN: التعلم المزدوج Q ، والتعلم متعدد الخطوات ، وشبكات المبارزة ، والشبكات المزعجة . العب معهم، وإذا كنت تشعر بالثقة، فيمكنك تنفيذ إعادة التشغيل ذات الأولوية أو شبكات المبارزة أو RL التوزيعية. لمعرفة المزيد عن هذه التحسينات، اقرأ الصحف!
أوراق
يجب أن تقرأ
- لعب أتاري مع التعلم المعزز العميق - 2013
- التحكم على مستوى الإنسان من خلال التعلم المعزز العميق – 2015
- قوس قزح: الجمع بين التحسينات في التعلم المعزز العميق - 2017
امتدادات DQN
- التعلم المعزز العميق من خلال التعلم المزدوج - 2015
- إعادة التجربة ذات الأولوية - 2015
- مبارزة بنيات الشبكة للتعلم المعزز العميق - 2016
- شبكات صاخبة للاستكشاف – 2017
- التعلم المعزز التوزيعي مع الانحدار الكمي - 2017
موارد أخرى
- "الكتاب المقدس" للتعلم المعزز: الفصلان 5 و 6 - ساتون وبارتو
- التعلم المعزز العميق في المؤسسة: سد الفجوة من الألعاب إلى الصناعة
الأسبوع 4 - خوارزميات تدرج السياسة - التعزيز وA2C
يقدم الأسبوع الرابع أساليب تدرج السياسة، وهي فئة من الخوارزميات التي تعمل على تحسين السياسة بشكل مباشر. ستتعرف أيضًا على خوارزميات الممثل والناقد. تجمع هذه الخوارزميات بين تدرج السياسة (الفاعل) ووظيفة القيمة (الناقد).
محاضرات - نظرية
- أساليب التدرج في السياسة - ديفيد سيلفر (ديب مايند)
- التدرج في سياسة الفرق المحدود
- التدرج في سياسة مونت كارلو
- الفاعل الناقد سياسة التدرج
- مقدمة تدرج السياسة - سيرجي ليفين (RECAP، اختياري)
- تدرج السياسة (REINFORCE وVanilla PG)
- تقليل التباين
- الممثل الناقد - سيرجي ليفين (المزيد في العمق)
- ممثل ناقد
- عامل الخصم
- تصميم خوارزمية الممثل الناقد (الوضع الدفعي أو عبر الإنترنت)
- خط الأساس المعتمد على الدولة
مشروع الأسبوع - Vanilla PG وA2C
تم تطبيق Vanilla PG وA2C على CartPole - تمرين هذا الأسبوع هو تنفيذ أسلوب التدرج السياسي أو أسلوب الناقد الفاعل الأكثر تطورًا. يمكنك العثور في المستودع على نسخة منفذة من PG وA2C. تنبيه الشوائب! انتبه إلى أن A2C يعطيني نتيجة غريبة. إذا وجدت أن تنفيذ PG وA2C سهل، فيمكنك تجربة الإصدار غير المتزامن من A2C (A3C).
أوراق
- أساليب التدرج في السياسة لتعزيز التعلم مع تقريب الوظيفة
- الطرق غير المتزامنة للتعلم المعزز العميق
موارد أخرى
- "الكتاب المقدس" للتعلم المعزز: الفصلين 9 و 10 - ساتون وبارتو
- RL بديهية: مقدمة إلى ميزة الممثل والناقد (A2C)
- وكلاء الممثل الناقد غير المتزامن (A3C)
الأسبوع الخامس – تدرجات السياسة المتقدمة – PPO
يدور هذا الأسبوع حول أساليب التدرج في السياسة المتقدمة التي تعمل على تحسين الاستقرار والتقارب بين أساليب التدرج في السياسة "الفانيليا". ستتعلم وتنفذ PPO، وهي خوارزمية RL تم تطويرها بواسطة OpenAI وتم اعتمادها في OpenAI Five.
محاضرات - نظرية
- تدرجات السياسة المتقدمة - سيرجي ليفين (جامعة كاليفورنيا في بيركلي)
- مشاكل مع أساليب التدرج في سياسة "الفانيليا".
- حدود أداء السياسة
- نظرية التحسين الرتيب
- الخوارزميات: NPO، TRPO، PPO
- تدرجات السياسة الطبيعية، TRPO، PPO - جون شولمان (Berkey DRL Bootcamp) - (RECAP، اختياري)
- قيود أساليب التدرج في سياسة "الفانيليا".
- التدرج الطبيعي للسياسة
- تحسين سياسة منطقة الثقة، TRPO
- تحسين السياسة القريبة، PPO
مشروع الأسبوع - PPO
تم تطبيق PPO على BipedalWalker - يتعين عليك هذا الأسبوع تطبيق PPO أو TRPO. أقترح PPO نظرًا لبساطته (مقارنة بـ TRPO). في مجلد المشروع Week5، تجد تطبيقًا لـ PPO الذي يتعلم العزف على BipedalWalker . علاوة على ذلك، يمكنك العثور في المجلد على موارد أخرى ستساعدك في تطوير المشروع. استمتع!
لمعرفة المزيد حول PPO، اقرأ المقالة وألق نظرة على فيديو Arxiv Insights
أوراق
- تحسين سياسة منطقة الثقة - 2015
- خوارزميات تحسين السياسة القريبة - 2017
موارد أخرى
- لفهم PPO وTRPO بشكل أفضل: السعي وراء السعادة (الروبوتية).
- صواميل ومسامير من Deep RL
- أفضل ممارسات PPO: التدريب على تحسين السياسة القريبة
- شرح خوارزمية PPO بواسطة Arxiv Insights
الأسبوع 6 - استراتيجيات التطور والخوارزميات الجينية - ES
في العام الماضي، تبين أن استراتيجيات التطور (ES) والخوارزميات الجينية (GA) تحقق نتائج مماثلة لطرق RL. إنها خوارزميات الصندوق الأسود الخالية من المشتقات والتي تتطلب بيانات أكثر من RL للتعلم ولكنها قادرة على التوسع عبر آلاف وحدات المعالجة المركزية. سنلقي نظرة هذا الأسبوع على خوارزميات الصندوق الأسود.
محاضرات ومقالات - نظرية
- استراتيجيات التطور
- مقدمة إلى ES: دليل مرئي لاستراتيجيات التطور
- ES لـ RL: تطوير استراتيجيات مستقرة
- الطرق الخالية من المشتقات - محاضرة
- استراتيجيات التطور (مناقشة ورقية)
- الخوارزميات الجينية
- مقدمة إلى الخوارزميات الجينية - بما في ذلك رمز المثال
مشروع الأسبوع - ES
إستراتيجيات التطور المطبقة على LunarLander - المشروع هذا الأسبوع هو تنفيذ ES أو GA. في مجلد Week6، يمكنك العثور على تطبيق أساسي للمقالة "استراتيجيات التطور كبديل قابل للتطوير لتعزيز التعلم لحل مشكلة LunarLanderContinious". يمكنك تعديله للعب بيئات أكثر صعوبة أو إضافة أفكارك.
أوراق
- التطور العصبي العميق: الخوارزميات الجينية هي بديل تنافسي لتدريب الشبكات العصبية العميقة لتعزيز التعلم
- استراتيجيات التطور كبديل قابل للتطوير لتعزيز التعلم
موارد أخرى
- خوارزميات التحسين التطورية - دان سيمون
الأسبوع السابع - التعلم المعزز القائم على النموذج - MB-MF
الخوارزميات التي تمت دراستها حتى الآن خالية من النماذج، مما يعني أنها تختار فقط الإجراء الأفضل في حالة ما. تحقق هذه الخوارزميات أداءً جيدًا للغاية ولكنها تتطلب الكثير من بيانات التدريب. وبدلاً من ذلك، تتعلم الخوارزميات القائمة على النموذج البيئة وتخطط للإجراءات التالية وفقًا للنموذج الذي تم تعلمه. تعد هذه الأساليب أكثر كفاءة في استخدام العينات مقارنة بالطرق الخالية من النماذج، ولكنها تحقق بشكل عام أسوأ أداء. ستتعلم في هذا الأسبوع النظرية الكامنة وراء هذه الأساليب وستقوم بتنفيذ إحدى الخوارزميات الأخيرة.
محاضرات - نظرية
- ر.ل القائم على النموذج، ديفيد سيلفر (ديب مايند) (نسخة مختصرة)
- دمج التعلم والتخطيط
- نظرة عامة على RL المستندة إلى النموذج
- أبنية متكاملة
- البحث القائم على المحاكاة
- RL القائم على النموذج، سيرجي ليفين (جامعة كاليفورنيا في بيركلي) (نسخة متعمقة)
- تعلم الأنظمة الديناميكية من البيانات
- نظرة عامة على RL القائم على النموذج
- نماذج عالمية ومحلية
- التعلم باستخدام النماذج المحلية ومناطق الثقة
- سياسات التعلم من خلال تقليد المتحكمات الأمثل
- الانتشار العكسي في السياسة باستخدام النماذج المستفادة
- خوارزمية البحث عن السياسات الموجهة
- تقليد التحكم الأمثل مع DAgger
- التعلم النموذجي المتقدم والصور
- نماذج في الفضاء الكامن
- النماذج مباشرة في مساحة الصورة
- النماذج العكسية
مشروع الأسبوع - MB-MF
تم تطبيق MB-MF على RoboschoolAnt - اخترت هذا الأسبوع تنفيذ الخوارزمية القائمة على النموذج الموضحة في هذه الورقة. يمكنك العثور على التنفيذ الخاص بي هنا . ملحوظة: بدلاً من تطبيقه على Mujoco كما في الورقة البحثية، استخدمت RoboSchool، وهو جهاز محاكاة مفتوح المصدر للروبوت، ومتكامل مع OpenAI Gym.
أوراق
- وكلاء الخيال المعزز للتعلم المعزز العميق - 2017
- تعزيز التعلم مع المهام المساعدة غير الخاضعة للرقابة - 2016
- ديناميكيات الشبكة العصبية للتعلم المعزز العميق القائم على النموذج مع الضبط الدقيق بدون نموذج - 2018
موارد أخرى
- "الكتاب المقدس" للتعلم المعزز: الفصل 8 - ساتون وبارتو
- النماذج العالمية - هل يستطيع الوكلاء التعلم من داخل أحلامهم؟
الأسبوع الثامن - مفاهيم متقدمة ومشروع من اختيارك
يدور هذا الأسبوع الأخير حول مفاهيم RL المتقدمة والمشروع الذي تختاره.
محاضرات - نظرية
- سيرجي ليفين (بيركلي)
- العلاقة بين الاستدلال والسيطرة
- التعلم المعزز العكسي
- الاستكشاف (الجزء الأول)
- الاستكشاف (الجزء الثاني) ونقل التعلم
- التعلم والنقل متعدد المهام
- التعلم الفوقي والتوازي
- التعلم بالتقليد المتقدم والمشكلات المفتوحة
- ديفيد سيلفر (ديب مايند)
المشروع النهائي
هنا يمكنك العثور على بعض أفكار المشروع.
- بومرمان (متعدد اللاعبين)
- تحدي الذكاء الاصطناعي للأطراف الصناعية (التحدي)
- نماذج الكلمات (التنفيذ الورقي)
- طلب بحث OpenAI (بحث)
- مسابقة الرجعية (نقل التعلم)
موارد أخرى
- ألفا جو زيرو
- ورق
- منشور مدونة DeepMind: AlphaGo Zero: التعلم من الصفر
- فيديو Arxiv Insights: كيف يعمل AlphaGo Zero - Google DeepMind
- أوبن إيه آي خمسة
- مشاركة مدونة OpenAI: OpenAI Five
- فيديو Arxiv Insights: OpenAI Five: مواجهة Human Pro's في Dota II
آخر 4 أيام - المراجعة + المشاركة
تهانينا على إكمال تحدي RL لمدة 60 يومًا!! اسمحوا لي أن أعرف إذا كنت قد استمتعت به وشاركه!
أرك لاحقًا!
أفضل الموارد
التعلم المعزز: مقدمة – بقلم ساتون وبارتو. "الكتاب المقدس" للتعلم المعزز. هنا يمكنك العثور على مسودة PDF للإصدار الثاني.
التدريب العملي على التعلم المعزز العميق - بقلم مكسيم لابان
التعلم العميق - إيان جودفيلو
التعلم المعزز العميق - فصل UC Berkeley بواسطة ليفين، تحقق هنا من موقعهم.
دورة التعلم المعزز - بقلم ديفيد سيلفر، DeepMind. محاضرات تمهيدية رائعة يلقيها سيلفر، وهو باحث رئيسي في AlphaGo. إنهم يتبعون كتاب التعلم المعزز من تأليف ساتون وبارتو.
موارد إضافية
التعلم التعزيز رهيبة. قائمة منسقة من الموارد المخصصة لتعزيز التعلم
GroundAI على RL. أوراق حول التعلم المعزز
كوب قهوة ☕
هو موضع تقدير كبير أي مساهمة! هتافات!