Verstärkungslernlösung der OpenAI -Kartpole.
Schauen Sie sich den entsprechenden mittelgroßen Artikel an: Cartpole - Einführung in das Verstärkungslernen (DQN - Deep Q -Learning).
Eine Pole wird durch ein nicht verwandeltes Gelenk an einen Wagen angebracht, der sich entlang einer reibungslosen Spur bewegt. Das System wird durch Anwenden einer Kraft von +1 oder -1 auf den Wagen gesteuert. Das Pendel beginnt aufrecht, und das Ziel ist es, zu verhindern, dass es umfällt. Für jeden Zeitschritt wird eine Belohnung von +1 bereitgestellt, die der Pol aufrecht bleibt. Die Episode endet, wenn der Pol mehr als 15 Grad von vertikal ist oder der Wagen mehr als 2,4 Einheiten aus der Mitte bewegt. Quelle
Standard -DQN mit Erlebnisreplay.
Cartpole-V0 definiert "Lösung" als durchschnittliche Belohnung von 195,0 über 100 aufeinanderfolgende Versuche. Quelle
Greg (Grzegorz) Surma
Portfolio
Github
Blog