Подкрепление учебного решения для телегора Openai.
Ознакомьтесь с соответствующей статьей: Cartpole - Введение в обучение подкреплению (DQN - Глубокое Q -обучение)
Полюс прикреплен к неактизированному соединению к телеге, которая движется вдоль трассы без трения. Система контролируется путем применения силы +1 или -1 к телеге. Маятник запускается в вертикальном положении, и цель состоит в том, чтобы предотвратить его падение. Награда +1 предоставляется за каждый временный шаг, что полюс остается вертикальным. Эпизод заканчивается, когда полюс находится более чем в 15 градусах от вертикальной, или тележка перемещается более чем на 2,4 единицы из центра. источник
Стандартный DQN с опытом воспроизведения.
Cartpole-V0 определяет «решение» как получение среднего вознаграждения в 195,0 более 100 последовательных испытаний. источник
Грег (Грегорз) Сурма
ПОРТФЕЛЬ
GitHub
Блог