Reforzamiento de la solución de aprendizaje del Cartpole de OpenAI.
Consulte el artículo medio correspondiente: Cartpole - Introducción al aprendizaje de refuerzo (DQN - profundo Q -learning)
Un poste está unido por una articulación no activada a un carro, que se mueve a lo largo de una pista sin fricción. El sistema se controla aplicando una fuerza de +1 o -1 al CART. El péndulo comienza en posición vertical, y el objetivo es evitar que se caiga. Se proporciona una recompensa de +1 para cada paso de tiempo que el poste permanece en posición vertical. El episodio termina cuando el poste está a más de 15 grados de vertical, o el carro mueve más de 2.4 unidades del centro. fuente
DQN estándar con repetición de experiencia.
Cartpole-V0 define la "resolución" como una recompensa promedio de 195.0 en más de 100 pruebas consecutivas. fuente
Greg (Grzegorz) Surma
CARTERA
Github
Blog