cartpole
1.0.0
增強式學習解決方案。
查看相應的媒介文章:Cartpole-加固學習簡介(DQN-深Q學習)
一個桿子通過未驅動的關節連接到車上,該關節沿著無摩擦軌道移動。通過將+1或-1的力施加到購物車中來控制系統。擺的開始直立,目標是防止其掉落。為桿保持直立的每個時間步提供了+1的獎勵。當極點距垂直方向超過15度時,情節結束,或者手推車從中心移動超過2.4個單元。來源
具有經驗重播的標準DQN。
CartPole-V0將“解決”定義為在連續100次試驗中獲得195.0的平均獎勵。來源
格雷格(Grzegorz)Surma
文件夾
github
部落格