cartpole
1.0.0
增强式学习解决方案。
查看相应的媒介文章:Cartpole-加固学习简介(DQN-深Q学习)
一个杆子通过未驱动的关节连接到车上,该关节沿着无摩擦轨道移动。通过将+1或-1的力施加到购物车中来控制系统。摆的开始直立,目标是防止其掉落。为杆保持直立的每个时间步提供了+1的奖励。当极点距垂直方向超过15度时,情节结束,或者手推车从中心移动超过2.4个单元。来源
具有经验重播的标准DQN。
CartPole-V0将“解决”定义为在连续100次试验中获得195.0的平均奖励。来源
格雷格(Grzegorz)Surma
文件夹
github
博客