cartpole
1.0.0
حل التعلم التعزيز لعرضية Openai.
تحقق من المقالة المتوسطة المقابلة: Cartpole - مقدمة في التعلم التعزيز (DQN - Deep Q -Learning)
يتم إرفاق القطب بواسطة مفصل غير مفعول بعربة ، تتحرك على طول مسار الاحتكاك. يتم التحكم في النظام عن طريق تطبيق قوة +1 أو -1 على العربة. يبدأ البندول في وضع مستقيم ، والهدف من ذلك هو منعه من السقوط. يتم توفير مكافأة +1 لكل مدة توقيت يبقى القطب في وضع مستقيم. تنتهي الحلقة عندما يكون القطب أكثر من 15 درجة من العمودي ، أو تحرك العربة أكثر من 2.4 وحدة من المركز. مصدر
القياسي DQN مع تجربة تجربة.
يعرّف CartPole-V0 "حل" على أنه الحصول على مكافأة متوسط 195.0 على 100 تجربة متتالية. مصدر
جريج (غرزيغورز) سورما
مَلَفّ
جيثب
مدونة