![](https://images.downcodes.com/uploads/20250113/img_6784e422de2fe30.png)
หลักสูตรการเรียนรู้การเสริมกำลังเชิงลึก
สำรวจการผสมผสานระหว่างโครงข่ายประสาทเทียมและการเรียนรู้แบบเสริมกำลัง อัลกอริทึมและตัวอย่างใน Python & PyTorch
คุณเคยได้ยินเกี่ยวกับผลลัพธ์อันน่าทึ่งที่ได้รับจาก Deepmind ด้วย AlphaGo Zero และโดย OpenAI ใน Dota 2 หรือไม่? มันคือทั้งหมดที่เกี่ยวกับโครงข่ายประสาทเทียมเชิงลึกและการเรียนรู้แบบเสริมกำลัง คุณต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้หรือไม่?
นี่เป็นโอกาสที่เหมาะสมสำหรับคุณในการเรียนรู้ Deep RL ในที่สุด และใช้กับโปรเจ็กต์และแอปพลิเคชันใหม่ๆ ที่น่าตื่นเต้น
ที่นี่คุณจะพบกับข้อมูลเบื้องต้นเชิงลึกเกี่ยวกับอัลกอริทึมเหล่านี้ โดยคุณจะได้เรียนรู้การเรียนรู้ q, การเรียนรู้คิวเชิงลึก, PPO, นักวิจารณ์นักแสดง และนำไปใช้โดยใช้ Python และ PyTorch
จุดมุ่งหมายสูงสุดคือการใช้เทคโนโลยีอเนกประสงค์เหล่านี้และนำไปใช้กับปัญหาที่สำคัญในโลกแห่งความเป็นจริงทุกประเภท เดมิส ฮาสซาบิส
พื้นที่เก็บข้อมูลนี้ประกอบด้วย:
การบรรยาย (และเนื้อหาอื่นๆ) มาจากช่อง YouTube ของ DeepMind และ Berkleyเป็นหลัก
อัลกอริทึม (เช่น DQN, A2C และ PPO) นำไปใช้ใน PyTorch และทดสอบบน OpenAI Gym: RoboSchool และ Atari
โปรดติดตามฉัน และ #60DaysRLChallenge
ตอนนี้เราก็มี ช่อง Slack ด้วย หากต้องการรับคำเชิญ โปรดส่งอีเมลถึงฉันที่ [email protected] นอกจากนี้ส่งอีเมลถึงฉันหากคุณมีความคิดข้อเสนอแนะหรือการปรับปรุง
หากต้องการเรียนรู้การเรียนรู้เชิงลึก คอมพิวเตอร์วิทัศน์ หรือการประมวลผลภาษาธรรมชาติ ให้ตรวจสอบ 1-Year-ML-Journey ของฉัน
ก่อนเริ่ม..ข้อกำหนดเบื้องต้น
- ระดับพื้นฐานของ Python และ PyTorch
- การเรียนรู้ของเครื่อง
- ความรู้พื้นฐานด้าน Deep Learning (MLP, CNN และ RNN)
หมายเหตุด่วน: หนังสือเล่มใหม่ของฉันออกแล้ว!
หากต้องการเรียนรู้การเรียนรู้แบบเสริมกำลังและ Deep RL ในเชิงลึกมากขึ้น ลองดูหนังสือของฉัน Reinforcement Learning Algorithms with Python !!
![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e36fe33.png)
สารบัญ
- ภูมิทัศน์การเรียนรู้แบบเสริมกำลัง
- การใช้ RL Cycle และ OpenAI Gym
- การแก้ปัญหาด้วยการเขียนโปรแกรมแบบไดนามิก
- การเรียนรู้ Q และแอปพลิเคชัน SARSA
- Deep Q-เครือข่าย
- การเรียนรู้การเพิ่มประสิทธิภาพ Stochastic และ DDPG
- การดำเนินการตาม TRPO และ PPO
- แอปพลิเคชัน DDPG และ TD3
- RL ตามโมเดล
- การเรียนรู้การเลียนแบบด้วยอัลกอริทึม DAgger
- ทำความเข้าใจกับอัลกอริธึมการเพิ่มประสิทธิภาพกล่องดำ
- การพัฒนาอัลกอริทึม ESBAS
- การนำไปปฏิบัติจริงเพื่อแก้ไขความท้าทาย RL
ดัชนี - การเรียนรู้แบบเสริมกำลัง
- สัปดาห์ที่ 1 - บทนำ
- สัปดาห์ที่ 2 - พื้นฐาน RL
- สัปดาห์ที่ 3 - อัลกอริธึมตามค่า - DQN
- สัปดาห์ที่ 4 - อัลกอริธึมการไล่ระดับนโยบาย - REINFORCE & A2C
- สัปดาห์ที่ 5 - การไล่ระดับนโยบายขั้นสูง - PPO
- สัปดาห์ที่ 6 - กลยุทธ์วิวัฒนาการและอัลกอริทึมทางพันธุกรรม - ES
- สัปดาห์ที่ 7 - การเรียนรู้การเสริมกำลังตามแบบจำลอง - MB-MF
- สัปดาห์ที่ 8 - แนวคิดขั้นสูงและโครงการที่คุณเลือก
- 4 วันที่ผ่านมา - รีวิว + แชร์
- ทรัพยากรที่ดีที่สุด
- แหล่งข้อมูลเพิ่มเติม
สัปดาห์ที่ 1 - บทนำ
- เหตุใดการเรียนรู้แบบเสริมกำลังจึงเป็นวิธีการเรียนรู้ที่สำคัญ - คำอธิบายง่ายๆ
- บทนำและภาพรวมหลักสูตร - CS294 โดย Levine, Berkley
- การเรียนรู้การเสริมกำลังเชิงลึก: โป่งจาก Pixels โดย Karpathy
แหล่งข้อมูลอื่นๆ
- "พระคัมภีร์" แห่งการเรียนรู้แบบเสริมกำลัง: บทที่ 1 - ซัตตันและบาร์โต
- บทความแนะนำที่ยอดเยี่ยม: การเรียนรู้การเสริมกำลังเชิงลึก: ภาพรวม
- เริ่มเขียนโค้ด: ตั้งแต่เริ่มต้น: AI Balancing Act ใน 50 บรรทัดของ Python
สัปดาห์ที่ 2 - พื้นฐาน RL: MDP, การโปรแกรมแบบไดนามิก และการควบคุมแบบไร้โมเดล
ผู้ที่จำอดีตไม่ได้ถูกประณามให้ทำซ้ำ - จอร์จ ซานตายานา
สัปดาห์นี้ เราจะเรียนรู้เกี่ยวกับบล็อกพื้นฐานของการเรียนรู้แบบเสริมกำลัง เริ่มตั้งแต่คำจำกัดความของปัญหาไปจนถึงการประมาณค่าและการเพิ่มประสิทธิภาพฟังก์ชันที่ใช้ในการแสดงคุณภาพของนโยบายหรือรัฐ
บรรยาย-ทฤษฎี ![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e231a31.png)
- กระบวนการตัดสินใจของ Markov - David Silver (DeepMind)
- กระบวนการมาร์คอฟ
- กระบวนการตัดสินใจของมาร์คอฟ
- การวางแผนโดยการเขียนโปรแกรมแบบไดนามิก - David Silver (DeepMind)
- การทำซ้ำนโยบาย
- การวนซ้ำค่า
- การทำนายแบบไม่มีแบบจำลอง - David Silver (DeepMind)
- การเรียนรู้มอนติคาร์โล
- การเรียนรู้ความแตกต่างชั่วคราว
- ทีดี(แล)
- การควบคุมแบบไม่มีโมเดล - David Silver (DeepMind)
- Ɛ-การทำซ้ำนโยบายอย่างละโมบ
- GLIE การค้นหามอนติคาร์โล
- ซาร์ซา
- การสุ่มตัวอย่างความสำคัญ
โครงการประจำสัปดาห์ - Q-learning ![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e317432.png)
Q-learning นำไปใช้กับ FrozenLake - สำหรับการออกกำลังกาย คุณสามารถแก้เกมโดยใช้ SARSA หรือใช้ Q-learning ด้วยตัวเอง ในกรณีแรก จำเป็นต้องเปลี่ยนแปลงเพียงเล็กน้อยเท่านั้น
แหล่งข้อมูลอื่นๆ
- "พระคัมภีร์" แห่งการเรียนรู้แบบเสริมกำลัง: บทที่ 3 และ 4 - ซัตตันและบาร์โต
- การแนะนำฟังก์ชันค่า - DRL UC Berkley โดย Sergey Levine
สัปดาห์ที่ 3 - อัลกอริธึมตามค่า - DQN
สัปดาห์นี้ เราจะเรียนรู้แนวคิดขั้นสูงเพิ่มเติมและการประยุกต์ใช้โครงข่ายประสาทเทียมเชิงลึกกับอัลกอริธึม Q-learning
บรรยาย-ทฤษฎี ![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e231a31.png)
- การประมาณฟังก์ชันค่า - David Silver (DeepMind)
- ตัวประมาณฟังก์ชันเชิงอนุพันธ์
- วิธีการที่เพิ่มขึ้น
- วิธีการแบทช์ (DQN)
- อัลกอริธึม Q-learning ขั้นสูง - Sergey Levine (UC Berkley)
- เล่นซ้ำบัฟเฟอร์
- การเรียนรู้ Q สองเท่า
- การดำเนินการต่อเนื่อง (NAF,DDPG)
- เคล็ดลับการปฏิบัติ
โปรเจ็กต์ประจำสัปดาห์ - DQN และเวอร์ชันต่างๆ ![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e317432.png)
![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e4da838.png)
DQN และตัวแปรบางตัวที่ใช้กับ Pong - สัปดาห์นี้เป้าหมายคือการพัฒนาอัลกอริทึม DQN เพื่อเล่นเกม Atari เพื่อให้น่าสนใจยิ่งขึ้น ฉันจึงได้พัฒนาส่วนขยาย DQN สามส่วนขยาย: Double Q-learning , การเรียนรู้แบบหลายขั้นตอน , Dueling Networks และ Noisy Nets เล่นกับพวกเขา และถ้าคุณรู้สึกมั่นใจ คุณสามารถใช้การเล่นซ้ำที่มีลำดับความสำคัญ เครือข่ายการดวล หรือการกระจาย RL ได้ หากต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับการปรับปรุงเหล่านี้ โปรดอ่านเอกสาร!
เอกสาร
ต้องอ่าน
- เล่น Atari ด้วย Deep Reinforcement Learning - 2013
- การควบคุมระดับมนุษย์ผ่านการเรียนรู้แบบเสริมกำลังเชิงลึก - 2558
- Rainbow: การผสมผสานการปรับปรุงในการเรียนรู้แบบเสริมกำลังเชิงลึก - 2017
ส่วนขยายของ DQN
- การเรียนรู้แบบเสริมกำลังเชิงลึกด้วย Double Q-learning - 2015
- เล่นซ้ำประสบการณ์ที่จัดลำดับความสำคัญ - 2015
- สถาปัตยกรรมเครือข่ายดวลเพื่อการเรียนรู้แบบเสริมกำลังเชิงลึก - 2016
- เครือข่ายที่มีเสียงดังเพื่อการสำรวจ - 2560
- การเรียนรู้การเสริมแรงแบบกระจายด้วยการถดถอยเชิงปริมาณ - 2017
แหล่งข้อมูลอื่นๆ
- "พระคัมภีร์" แห่งการเรียนรู้แบบเสริมกำลัง: บทที่ 5 และ 6 - ซัตตันและบาร์โต
- การเรียนรู้แบบเสริมกำลังเชิงลึกในองค์กร: เชื่อมช่องว่างจากเกมสู่อุตสาหกรรม
สัปดาห์ที่ 4 - อัลกอริธึมการไล่ระดับนโยบาย - REINFORCE & A2C
สัปดาห์ที่ 4 แนะนำวิธีการไล่ระดับนโยบาย ซึ่งเป็นคลาสของอัลกอริทึมที่ปรับนโยบายให้เหมาะสมโดยตรง นอกจากนี้ คุณจะได้เรียนรู้เกี่ยวกับอัลกอริทึมของนักแสดง-นักวิจารณ์ อัลกอริธึมเหล่านี้รวมทั้งการไล่ระดับนโยบาย (นักแสดง) และฟังก์ชันคุณค่า (นักวิจารณ์)
บรรยาย-ทฤษฎี ![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e231a31.png)
- วิธีการไล่ระดับนโยบาย - David Silver (DeepMind)
- การไล่ระดับนโยบายผลต่างอันจำกัด
- การไล่ระดับนโยบายมอนติคาร์โล
- การไล่ระดับสีนโยบายนักแสดง - นักวิจารณ์
- บทนำการไล่ระดับนโยบาย - Sergey Levine (RECAP ไม่บังคับ)
- การไล่ระดับนโยบาย (REINFORCE และ Vanilla PG)
- การลดความแปรปรวน
- นักแสดง-นักวิจารณ์ - เซอร์เกย์ เลอวีน (เจาะลึกเพิ่มเติม)
- นักแสดง-นักวิจารณ์
- ปัจจัยส่วนลด
- การออกแบบอัลกอริทึมนักแสดง-นักวิจารณ์ (โหมดแบทช์หรือออนไลน์)
- พื้นฐานขึ้นอยู่กับรัฐ
โครงการประจำสัปดาห์ - Vanilla PG และ A2C ![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e317432.png)
Vanilla PG และ A2C นำไปใช้กับ CartPole - แบบฝึกหัดของสัปดาห์นี้คือการใช้วิธีการไล่ระดับนโยบายหรือนักวิจารณ์นักแสดงที่มีความซับซ้อนมากขึ้น ในพื้นที่เก็บข้อมูล คุณจะพบเวอร์ชันที่ใช้งานของ PG และ A2C การแจ้งเตือนข้อผิดพลาด! โปรดทราบว่า A2C ให้ผลลัพธ์ที่แปลกกับฉัน หากคุณพบว่าการใช้งาน PG และ A2C เป็นเรื่องง่าย คุณสามารถลองใช้ A2C (A3C) เวอร์ชันอะซิงโครนัสได้
เอกสาร
- วิธีการไล่ระดับนโยบายสำหรับการเรียนรู้แบบเสริมแรงด้วยการประมาณฟังก์ชัน
- วิธีการแบบอะซิงโครนัสสำหรับการเรียนรู้แบบเสริมกำลังเชิงลึก
แหล่งข้อมูลอื่นๆ
- "พระคัมภีร์" แห่งการเรียนรู้แบบเสริมกำลัง: บทที่ 9 และ 10 - ซัตตันและบาร์โต
- RL ที่ใช้งานง่าย: ข้อมูลเบื้องต้นเกี่ยวกับ Advantage-Actor-Critic (A2C)
- ตัวแทนนักวิจารณ์นักแสดงแบบอะซิงโครนัส (A3C)
สัปดาห์ที่ 5 - การไล่ระดับนโยบายขั้นสูง - PPO
สัปดาห์นี้เป็นเรื่องเกี่ยวกับวิธีการไล่ระดับนโยบายขั้นสูงที่ปรับปรุงเสถียรภาพและการบรรจบกันของวิธีการไล่ระดับนโยบาย "วานิลลา" คุณจะได้เรียนรู้และใช้งาน PPO ซึ่งเป็นอัลกอริทึม RL ที่พัฒนาโดย OpenAI และนำมาใช้ใน OpenAI Five
บรรยาย-ทฤษฎี ![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e231a31.png)
- การไล่ระดับนโยบายขั้นสูง - Sergey Levine (UC Berkley)
- ปัญหาเกี่ยวกับวิธีการไล่ระดับนโยบาย "วานิลลา"
- ขอบเขตการปฏิบัติงานของนโยบาย
- ทฤษฎีการปรับปรุงแบบโมโนโทนิก
- อัลกอริทึม: NPO, TRPO, PPO
- การไล่ระดับนโยบายตามธรรมชาติ, TRPO, PPO - John Schulman (Berkey DRL Bootcamp) - (RECAP, ตัวเลือก)
- ข้อจำกัดของวิธีการไล่ระดับนโยบาย "วานิลลา"
- การไล่ระดับนโยบายตามธรรมชาติ
- การเพิ่มประสิทธิภาพนโยบายภูมิภาคที่เชื่อถือได้ TRPO
- การเพิ่มประสิทธิภาพนโยบายใกล้เคียง PPO
โครงการประจำสัปดาห์ - อปท ![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e317432.png)
![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e6a2f313.png)
PPO นำไปใช้กับ BipedalWalker - สัปดาห์นี้คุณต้องใช้ PPO หรือ TRPO ฉันขอแนะนำ PPO ด้วยความเรียบง่าย (เทียบกับ TRPO) ในโฟลเดอร์โปรเจ็กต์ Week5 คุณพบการใช้งาน PPO ที่เรียนรู้การเล่น BipedalWalker นอกจากนี้ ในโฟลเดอร์นี้ คุณสามารถค้นหาแหล่งข้อมูลอื่นๆ ที่จะช่วยคุณในการพัฒนาโครงการได้ มีความสุข!
หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ PPO โปรดอ่านรายงานและดูวิดีโอของ Arxiv Insights
เอกสาร
- การเพิ่มประสิทธิภาพนโยบายภูมิภาคที่เชื่อถือได้ - 2015
- อัลกอริทึมการเพิ่มประสิทธิภาพนโยบายใกล้เคียง - 2017
แหล่งข้อมูลอื่นๆ
- เพื่อทำความเข้าใจ PPO และ TRPO: การแสวงหาความสุข (หุ่นยนต์) ให้ดียิ่งขึ้น
- น็อตและสลักเกลียวของ Deep RL
- แนวปฏิบัติที่ดีที่สุดของ PPO: การฝึกอบรมด้วยการเพิ่มประสิทธิภาพนโยบายใกล้เคียง
- คำอธิบายอัลกอริทึม PPO โดย Arxiv Insights
สัปดาห์ที่ 6 - กลยุทธ์วิวัฒนาการและอัลกอริทึมทางพันธุกรรม - ES
ในปีที่ผ่านมา กลยุทธ์วิวัฒนาการ (ES) และอัลกอริทึมทางพันธุกรรม (GA) ได้รับการแสดงให้เห็นว่าให้ผลลัพธ์ที่เทียบเคียงได้กับวิธี RL เป็นอัลกอริธึมกล่องดำที่ไม่มีอนุพันธ์ ซึ่งต้องใช้ข้อมูลมากกว่า RL ในการเรียนรู้ แต่สามารถขยายขนาดให้ครอบคลุม CPU นับพันตัวได้ สัปดาห์นี้เราจะดูอัลกอริธึมกล่องดำนี้
บรรยายและบทความ - ทฤษฎี ![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e231a31.png)
- กลยุทธ์วิวัฒนาการ
- ข้อมูลเบื้องต้นเกี่ยวกับ ES: คู่มือภาพเพื่อกลยุทธ์วิวัฒนาการ
- ES สำหรับ RL: การพัฒนากลยุทธ์ที่มั่นคง
- วิธีการปลอดอนุพันธ์ - การบรรยาย
- กลยุทธ์วิวัฒนาการ (การอภิปรายในกระดาษ)
- อัลกอริทึมทางพันธุกรรม
- ความรู้เบื้องต้นเกี่ยวกับอัลกอริทึมทางพันธุกรรม - รวมถึงโค้ดตัวอย่าง
โครงการประจำสัปดาห์ - ES ![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e317432.png)
![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422eb895316.png)
กลยุทธ์วิวัฒนาการนำไปใช้กับ LunarLander - สัปดาห์นี้โครงการจะใช้ ES หรือ GA ใน โฟลเดอร์ Week6 คุณจะพบการใช้งานขั้นพื้นฐานของ Evolution Strategies แบบกระดาษซึ่งเป็นทางเลือกที่ปรับขนาดได้สำหรับการเรียนรู้แบบเสริมแรงเพื่อแก้ปัญหา LunarLanderContinuous คุณสามารถปรับเปลี่ยนเพื่อให้เล่นในสภาพแวดล้อมที่ยากขึ้นหรือเพิ่มไอเดียของคุณได้
เอกสาร
- Deep Neuroevolution: อัลกอริทึมทางพันธุกรรมเป็นทางเลือกในการแข่งขันสำหรับการฝึกอบรมโครงข่ายประสาทเทียมระดับลึกเพื่อการเรียนรู้แบบเสริมกำลัง
- กลยุทธ์วิวัฒนาการเป็นทางเลือกที่ปรับขนาดได้เพื่อการเรียนรู้แบบเสริมกำลัง
แหล่งข้อมูลอื่นๆ
- อัลกอริธึมการปรับให้เหมาะสมเชิงวิวัฒนาการ - แดน ไซมอน
สัปดาห์ที่ 7 - การเรียนรู้การเสริมกำลังตามแบบจำลอง - MB-MF
อัลกอริธึมที่ศึกษาจนถึงตอนนี้ไม่มีแบบจำลอง ซึ่งหมายความว่าพวกเขาจะเลือกเฉพาะการดำเนินการที่ดีกว่าตามสถานะเท่านั้น อัลกอริธึมเหล่านี้ให้ประสิทธิภาพที่ดีมาก แต่ต้องใช้ข้อมูลการฝึกอบรมจำนวนมาก ให้ใช้อัลกอริธึมตามโมเดลแทน เรียนรู้สภาพแวดล้อมและวางแผนการดำเนินการถัดไปตามโมเดลที่เรียนรู้ วิธีการเหล่านี้มีประสิทธิภาพในการสุ่มตัวอย่างมากกว่าแบบไร้แบบจำลอง แต่โดยรวมแล้วให้ประสิทธิภาพที่แย่ที่สุด ในสัปดาห์นี้ คุณจะได้เรียนรู้ทฤษฎีเบื้องหลังวิธีการเหล่านี้และนำหนึ่งในอัลกอริธึมสุดท้ายไปใช้
บรรยาย-ทฤษฎี ![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e231a31.png)
- Model-Based RL, David Silver (DeepMind) (ฉบับกระชับ)
- บูรณาการการเรียนรู้และการวางแผน
- ภาพรวม RL ตามโมเดล
- สถาปัตยกรรมแบบผสมผสาน
- การค้นหาตามสถานการณ์จำลอง
- Model-Based RL, Sergey Levine (UC Berkley) (เวอร์ชันเชิงลึก)
- การเรียนรู้ระบบไดนามิกจากข้อมูล
- ภาพรวมของ RL ตามโมเดล
- โมเดลระดับโลกและระดับท้องถิ่น
- การเรียนรู้ด้วยโมเดลท้องถิ่นและภูมิภาคที่ไว้วางใจ
- การเรียนรู้นโยบายโดยการเลียนแบบผู้ควบคุมที่เหมาะสมที่สุด
- การเผยแพร่กลับไปสู่นโยบายด้วยโมเดลที่เรียนรู้
- อัลกอริธึมการค้นหานโยบายที่แนะนำ
- เลียนแบบการควบคุมที่เหมาะสมที่สุดด้วย DAgger
- การเรียนรู้แบบจำลองขั้นสูงและรูปภาพ
- แบบจำลองในพื้นที่แฝง
- โมเดลโดยตรงในพื้นที่ภาพ
- โมเดลผกผัน
โครงการประจำสัปดาห์ - MB-MF ![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e317432.png)
![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422ec6af319.png)
MB-MF นำไปใช้กับ RoboschoolAnt - สัปดาห์นี้ฉันเลือกที่จะใช้อัลกอริทึมตามแบบจำลองที่อธิบายไว้ในบทความนี้ คุณสามารถดูการใช้งานของฉันได้ที่นี่ หมายเหตุ: แทนที่จะนำไปใช้กับ Mujoco เหมือนในรายงาน ผมใช้ RoboSchool ซึ่งเป็นโปรแกรมจำลองโอเพ่นซอร์สสำหรับหุ่นยนต์ ซึ่งผสานรวมกับ OpenAI Gym
เอกสาร
- ตัวแทนเสริมจินตนาการสำหรับการเรียนรู้เสริมเชิงลึก - 2017
- การเรียนรู้แบบเสริมกำลังด้วยงานเสริมที่ไม่มีผู้ดูแล - 2559
- พลวัตของโครงข่ายประสาทเทียมสำหรับการเรียนรู้การเสริมแรงเชิงลึกตามแบบจำลองพร้อมการปรับแต่งแบบละเอียดแบบไร้โมเดล - 2018
แหล่งข้อมูลอื่นๆ
- "พระคัมภีร์" แห่งการเรียนรู้แบบเสริมกำลัง: บทที่ 8 - ซัตตันและบาร์โต
- World Models - เจ้าหน้าที่สามารถเรียนรู้จากความฝันของตนเองได้หรือไม่?
สัปดาห์ที่ 8 - แนวคิดขั้นสูงและโครงการที่คุณเลือก
สัปดาห์ที่แล้วเป็นเรื่องเกี่ยวกับแนวคิด RL ขั้นสูงและโครงการที่คุณเลือก
บรรยาย-ทฤษฎี ![การวาดภาพ](https://images.downcodes.com/uploads/20250113/img_6784e422e231a31.png)
- เซอร์เกย์ เลวีน (เบิร์กลีย์)
- การเชื่อมต่อระหว่างการอนุมานและการควบคุม
- การเรียนรู้การเสริมแรงผกผัน
- การสำรวจ (ตอนที่ 1)
- การสำรวจ (ตอนที่ 2) และถ่ายทอดการเรียนรู้
- การเรียนรู้และการถ่ายโอนแบบหลายงาน
- การเรียนรู้เมตาและความเท่าเทียม
- การเรียนรู้การเลียนแบบขั้นสูงและปัญหาแบบเปิด
- เดวิด ซิลเวอร์ (DeepMind)
โครงการสุดท้าย
คุณจะพบแนวคิดโครงการบางส่วนได้ที่นี่
- พอมเมอร์แมน (ผู้เล่นหลายคน)
- AI สำหรับความท้าทายด้านกายอุปกรณ์ (Challenge)
- Word Models (การนำกระดาษไปใช้)
- ขอวิจัย OpenAI (วิจัย)
- การประกวดย้อนยุค (โอนการเรียนรู้)
แหล่งข้อมูลอื่นๆ
- อัลฟ่าโก ซีโร่
- กระดาษ
- โพสต์ในบล็อก DeepMind: AlphaGo Zero: การเรียนรู้ตั้งแต่เริ่มต้น
- วิดีโอ Arxiv Insights: AlphaGo Zero ทำงานอย่างไร - Google DeepMind
- OpenAI ห้า
- โพสต์บล็อก OpenAI: OpenAI Five
- วิดีโอ Arxiv Insights: OpenAI Five: เผชิญหน้ากับ Human Pro ใน Dota II
4 วันที่ผ่านมา - รีวิว + แชร์
ขอแสดงความยินดีที่ทำภารกิจ RL Challenge 60 วันสำเร็จ!! แจ้งให้เราทราบหากคุณสนุกและแบ่งปัน!
พบกันใหม่!
ทรัพยากรที่ดีที่สุด
การเรียนรู้แบบเสริมกำลัง: บทนำ - โดย Sutton & Barto "พระคัมภีร์" แห่งการเรียนรู้แบบเสริมกำลัง คุณจะพบร่าง PDF ของเวอร์ชันที่สองได้ที่นี่
การเรียนรู้การเสริมกำลังเชิงลึก - โดย Maxim Lapan
การเรียนรู้เชิงลึก - เอียน กู๊ดเฟลโลว์
การเรียนรู้การเสริมกำลังเชิงลึก - คลาส UC Berkeley โดย Levine ตรวจสอบที่นี่ ไซต์ของพวกเขา
หลักสูตรการเรียนรู้การเสริมกำลัง - โดย David Silver, DeepMind การบรรยายเบื้องต้นที่ยอดเยี่ยมโดย Silver นักวิจัยชั้นนำของ AlphaGo พวกเขาติดตามหนังสือ Reinforcement Learning โดย Sutton & Barto
แหล่งข้อมูลเพิ่มเติม
การเรียนรู้การเสริมกำลังที่ยอดเยี่ยม รายการแหล่งข้อมูลที่คัดสรรมาเพื่อการเรียนรู้แบบเสริมกำลังโดยเฉพาะ
GroundAI บน RL บทความเกี่ยวกับการเรียนรู้แบบเสริมกำลัง
กาแฟสักแก้ว ☕
การสนับสนุนใด ๆ ที่ได้รับการชื่นชมอย่างสูง! ไชโย!