pgx
v2.5.0
用于强化学习 (RL) 的 GPU 加速并行游戏模拟器集合
笔记
如果您觉得这个项目有帮助,我们将非常感谢您通过 GitHub 之星提供的支持,以帮助我们发展社区并激励进一步的发展!
v1
"tic_tac_toe"
v0
每个环境都有版本控制,当存在影响代理性能的更改或存在与 API 不向后兼容的更改时,版本会递增。如果您想追求完整的重现性,我们建议您按如下方式检查Pgx的版本和各个环境:
> >> pgx . __version__
'1.0.0'
> >> env . version
'v0'
Pgx 旨在通过(经典)棋盘游戏套装来补充这些JAX 原生环境:
将 Pgx 与这些JAX 原生算法/实现相结合可能是一个有趣的方向:
目前,包括围棋和国际象棋在内的一些环境在 TPU 上表现不佳。请改用 GPU。
如果您在工作中使用 Pgx,请引用我们的论文:
@inproceedings{koyamada2023pgx,
title={Pgx: Hardware-Accelerated Parallel Game Simulators for Reinforcement Learning},
author={Koyamada, Sotetsu and Okano, Shinri and Nishimori, Soichiro and Murata, Yu and Habara, Keigo and Kita, Haruka and Ishii, Shin},
booktitle={Advances in Neural Information Processing Systems},
pages={45716--45743},
volume={36},
year={2023}
}
阿帕奇-2.0