Загрузка pgx - Загрузка исходного кода pgx

pgx

AI Исходный код

v2.5.0

Скачать

Коллекция симуляторов параллельных игр с графическим ускорением для обучения с подкреплением (RL).

Примечание

Если вы найдете этот проект полезным, мы будем благодарны за вашу поддержку через звезду GitHub, которая поможет нам расширить сообщество и мотивировать дальнейшее развитие!

v1 Упрощенный, удобный для детей маджонг. Крестики-нолики
"tic_tac_toe" v0 Три победы подряд.

Политика управления версиями

Каждая среда имеет версию, и версия увеличивается при наличии изменений, влияющих на производительность агентов, или при наличии изменений, которые не имеют обратной совместимости с API. Если вы хотите добиться полной воспроизводимости, мы рекомендуем вам проверить версию Pgx и каждую среду следующим образом:

 > >> pgx . __version__
'1.0.0'
> >> env . version
'v0'

См. также

Pgx предназначен для дополнения этих JAX-родных сред (классическими) наборами для настольных игр:

RobertTLange/gymnax: реализация JAX популярных сред RL (классический контроль, bsuite, MinAtar и т. д.) и мета-задач RL.
google/brax: моделирование физики твердого тела в JAX и задачи RL в непрерывном пространстве (муравей, выборка, гуманоид и т. д.)
instadeepai/jumanji: набор разнообразных и сложных сред RL в JAX (упаковка контейнеров, проблемы маршрутизации и т. д.).
flairox/jaxmarl: многоагентные среды RL в JAX (упрощенный StarCraft и т. д.)
corl-team/xland-minigrid: среды GridWorld Meta-RL в JAX, вдохновленные MiniGrid и XLand.
MichaelTMatthews/Craftax: (Crafter + NetHack) в JAX для открытого RL
epignatelli/navix: повторная реализация MiniGrid в JAX

Объединение Pgx с этими собственными алгоритмами/реализациями JAX может быть интересным направлением:

Фреймворк Anakin: высокоэффективная фреймворк RL, работающий с собственными средами JAX на TPU.
deepmind/mctx: реализации MCTS на основе JAX, включая AlphaZero и MuZero.
deepmind/rlax: JAX-родные компоненты RL
google/evojax: аппаратно-ускоренная нейроэволюция
RobertTLange/evosax: реализация стратегии развития (ES) на основе JAX.
адаптивная интеллектуальная робототехника/QDax: собственные JAX-алгоритмы качества-разнообразия (QD)
luchris429/purejaxrl: реализации RL на основе Jax

Ограничение

В настоящее время некоторые среды, включая го и шахматы, не очень хорошо работают на TPU. Вместо этого используйте графические процессоры.

Цитирование

Если вы используете Pgx в своей работе, пожалуйста, цитируйте нашу статью:

 @inproceedings{koyamada2023pgx,
  title={Pgx: Hardware-Accelerated Parallel Game Simulators for Reinforcement Learning},
  author={Koyamada, Sotetsu and Okano, Shinri and Nishimori, Soichiro and Murata, Yu and Habara, Keigo and Kita, Haruka and Ishii, Shin},
  booktitle={Advances in Neural Information Processing Systems},
  pages={45716--45743},
  volume={36},
  year={2023}
}