Загрузка genrl - загрузка исходного кода genrl

genrl

Другой исходный код

v0.0.2

Скачать

Genrl - это библиотека обучения Pytorch Arefrifors, ориентированная на воспроизводимые, обобщаемые внедрения алгоритма и улучшение доступности в обучении подкрепления

Текущий релиз Genrl находится на V0.0.2. Ожидайте нарушения изменений

Исследование обучения подкрепления движется быстрее, чем когда -либо прежде. Чтобы не отставать от растущей тенденции и обеспечить воспроизводимое исследование RL, Genrl стремится помочь более быстрому воспроизведению бумаги и сравнительному анализу, предоставляя следующие основные функции:

Pytorch-Prirst : модульный, расширяемый и идиоматический питон
Учебные пособия и пример : более 20 учебных пособий от базового RL до алгоритма SOTA Deep RL (с объяснениями)!
Унифицированный тренер и класс журнала : повторный использование кода и пользовательский интерфейс высокого уровня
Готовые реализации алгоритма : готовые реализации популярных алгоритмов RL.
Более быстрый сравнительный анализ : автоматизированная настройка гиперпараметров, реализация среды и т. Д.

Интегрируя эти функции в GenRL, мы стремимся в конечном итоге поддерживать любую новую реализацию алгоритма менее чем за 100 строк .

Если вы заинтересованы в соревнованиях, не стесняйтесь пройти через проблемы и открывать PRS для кода, документов, тестов и т. Д. В случае любых вопросов, пожалуйста, ознакомьтесь с рекомендациями.

Установка

Genrl совместим с Python 3.6 или более поздней версии, а также зависит от pytorch и openai-gym . Самый простой способ установить Genrl - это PIP, предпочтительный установщик пакета Python.

 $ pip install genrl

Обратите внимание, что Genrl является активным проектом и регулярно публикует новые выпуски. Чтобы обновить Genrl до последней версии, используйте PIP следующим образом.

 $ pip install -U genrl

Если вы собираетесь установить новейшую невыпущенную версию библиотеки (т.е. из источника), вы можете просто сделать:

 $ git clone https://github.com/SforAiDl/genrl.git
$ cd genrl
$ python setup.py install

Использование

Чтобы обучить мягкую модель актер-критической с нуля в тренажерном зале Pendulum-v0 и вознаграждения журнала на Tensorboard

 import gym

from genrl . agents import SAC
from genrl . trainers import OffPolicyTrainer
from genrl . environments import VectorEnv

env = VectorEnv ( "Pendulum-v0" )
agent = SAC ( 'mlp' , env )
trainer = OffPolicyTrainer ( agent , env , log_mode = [ 'stdout' , 'tensorboard' ])
trainer . train ()

Для обучения табличной модели Dyna-Q с нуля на тренажерном зале FrozenLake-v0 и наградах участка:

 import gym

from genrl . agents import QLearning
from genrl . trainers import ClassicalTrainer

env = gym . make ( "FrozenLake-v0" )
agent = QLearning ( env )
trainer = ClassicalTrainer ( agent , env , mode = "dyna" , model = "tabular" , n_episodes = 10000 )
episode_rewards = trainer . train ()
trainer . plot ( episode_rewards )

Учебные пособия

Многочисленные вооруженные бандиты
- Верхняя уверенность связана
- Томпсон выборка
- Байесовский
- Softmax Dection Selection
Контекстуальные бандиты
- Линейный задний вывод
- Вариационный вывод
- https://genrl.readthedocs.io/en/latest/usage/tutorials/bandit/bootstrap.html
- Отбор проб шума параметров
Фон обучения в глубоком подкреплении
- Ванильные политические градиенты
- Преимущество актер -критик
- Проксимальная оптимизация политики

Алгоритмы

Глубокий рл

DQN (Deep Q Networks)
- Дкн
- Двойной DQN
- Дуэль DQN
- Шумный dqn
- Категорический DQN
VPG (градиенты политики ванили)
A2C (Advantage Actor-Critic)
PPO (оптимизация проксимальной политики)
DDPG (глубокие детерминированные градиенты политики)
TD3 (двойник задержанный DDPG)
Мешок (мягкий актер -критик)

Классический RL

Сарса
Q Learning

Бандит Р.Л.

Многочисленные вооруженные бандиты
- EPS жадный
- UCB
- Томпсон выборка
- Байесовские бандиты
- Softmax Explorer
Контекстуальные бандиты
- EPS жадный
- UCB
- Томпсон выборка
- Байесовские бандиты
- Softmax Explorer
Глубокие контекстуальные бандиты
- Вариация вывода
- Проблемы шума для параметров нейронной сети
- Эпсилон жадный с нейронной сетью
- Байесовская регрессия для апостериорного вывода
- Начальный ансамбль

Кредиты и подобные библиотеки:

Тренажерный зал - среда
Луча
BASELINES OPENAI - LOGGER
Стабильные базовые показатели 3: Стабильные базовые показатели направлены на то, чтобы обеспечить базовые показатели для глубоких алгоритмов RL.
Pytorch-A2c-Ppo-acctr
Глубокие контекстуальные бандиты

Расширять

Дополнительная информация