Этот репозиторий содержит заметки к курсу «Обучение с подкреплением» Дэвида Сильвера, а также реализацию различных обсуждаемых алгоритмов как в Keras (с бэкэндом TensorFlow), так и в платформе тренажерного зала OpenAI.
Неделя 1: Введение в обучение с подкреплением [слайд][видео]
Неделя 2: Марковские процессы принятия решений [слайд][видео]
Неделя 3: Планирование с помощью динамического программирования [слайд][видео]
Неделя 4: Прогнозирование без использования моделей [слайд][видео]
Неделя 5: Управление без модели [слайд][видео]
Неделя 6: Аппроксимация функции значения [слайд][видео]
Неделя 7: Градиентные методы политики [слайд][видео]
Неделя 8: Интеграция обучения и планирования [слайд][видео]
Неделя 9: Разведка и эксплуатация [слайд][видео]
Неделя 10: Практический пример: RL в классических играх [слайд][видео]
Установите их с помощью pip.
Пожалуйста, не стесняйтесь создавать запрос на включение для добавления реализаций алгоритмов, обсуждаемых в различных средах, таких как PyTorch, Caffe и т. д., или улучшения существующих реализаций. Если вы новичок, вы можете использовать это для начала.
Если вы нашли это полезным, рассмотрите возможность пометки репозитория звездочкой (★), чтобы он мог охватить более широкую аудиторию.
Этот проект лицензируется по лицензии MIT — подробности см. в файле LICENSE.