cartpole
1.0.0
Openaiのカートポールの強化学習ソリューション。
対応する媒体記事をご覧ください:カートポール - 補強学習の紹介(DQN-ディープQラーニング)
ポールは、機能していないジョイントによってカートに取り付けられ、摩擦のないトラックに沿って移動します。システムは、+1または-1の力をカートに適用することにより制御されます。振り子は直立して始まり、目標はそれが倒れないようにすることです。ポールが直立したままであるすべてのタイムステップに対して+1の報酬が提供されます。エピソードは、ポールが垂直から15度を超えるか、カートが中央から2.4ユニット以上移動する場合に終了します。ソース
エクスペリエンスリプレイを備えた標準DQN。
Cartpole-V0は、「解決」を100回の連続した試験で195.0の平均報酬を得ると定義しています。ソース
グレッグ(Grzegorz)Surma
ポートフォリオ
github
ブログ