Solution d'apprentissage de renforcement du cartpole de l'Openai.
Consultez l'article moyen correspondant: Cartpole - Introduction à l'apprentissage du renforcement (DQN - Deep Q-Learning)
Un poteau est attaché par un joint non actif à un chariot, qui se déplace le long d'une piste sans frottement. Le système est contrôlé en appliquant une force de +1 ou -1 au chariot. Le pendule commence debout et l'objectif est de l'empêcher de tomber. Une récompense de +1 est fournie pour chaque pas de temps que le poteau reste droit. L'épisode se termine lorsque le poteau est à plus de 15 degrés de vertical, ou que le chariot se déplace à plus de 2,4 unités du centre. source
DQN standard avec relecture d'expérience.
Cartpole-V0 définit la «résolution» comme une récompense moyenne de 195,0 sur 100 essais consécutifs. source
Greg (Grzegorz) Surma
PORTEFEUILLE
Github
Blog