cartpole
1.0.0
โซลูชันการเรียนรู้การเสริมแรงของ catpole ของ Openai
ตรวจสอบบทความกลางที่เกี่ยวข้อง: cartpole - บทนำสู่การเรียนรู้การเสริมแรง (DQN - Deep Q -Learning)
เสาถูกแนบมาด้วยข้อต่อที่ไม่มีการทำหน้าที่กับรถเข็นซึ่งเคลื่อนที่ไปตามแทร็กที่ไม่มีแรงเสียดทาน ระบบถูกควบคุมโดยใช้แรง +1 หรือ -1 กับรถเข็น ลูกตุ้มเริ่มต้นตรงและเป้าหมายคือการป้องกันไม่ให้มันล้มลง รางวัลของ +1 มีให้สำหรับทุกครั้งที่เสายังคงตั้งตรง ตอนจบลงเมื่อเสามากกว่า 15 องศาจากแนวตั้งหรือรถเข็นเคลื่อนที่มากกว่า 2.4 หน่วยจากศูนย์ แหล่งที่มา
มาตรฐาน DQN พร้อมประสบการณ์เล่นซ้ำ
Cartpole-V0 กำหนด "การแก้" เป็นรางวัลเฉลี่ย 195.0 มากกว่า 100 การทดลองติดต่อกัน แหล่งที่มา
Greg (Grzegorz) Surma
ผลงาน
คนอื่น ๆ
บล็อก