Uma coleção de simuladores de jogos paralelos acelerados por GPU para aprendizagem por reforço (RL)
Observação
Se você achar este projeto útil, ficaríamos gratos pelo seu apoio através de uma estrela do GitHub para nos ajudar a aumentar a comunidade e motivar o desenvolvimento!
v1
"tic_tac_toe"
v0
Cada ambiente é versionado, e a versão é incrementada quando há alterações que afetam o desempenho dos agentes ou quando há alterações que não são compatíveis com versões anteriores da API. Se você deseja obter reprodutibilidade completa, recomendamos que você verifique a versão do Pgx e de cada ambiente da seguinte forma:
> >> pgx . __version__
'1.0.0'
> >> env . version
'v0'
O objetivo do Pgx é complementar esses ambientes nativos do JAX com jogos de tabuleiro (clássicos):
Combinar Pgx com esses algoritmos/implementações nativos de JAX pode ser uma direção interessante:
Atualmente, alguns ambientes, incluindo Go e xadrez, não funcionam bem em TPUs. Em vez disso, use GPUs.
Se você usa Pgx em seu trabalho, cite nosso artigo:
@inproceedings{koyamada2023pgx,
title={Pgx: Hardware-Accelerated Parallel Game Simulators for Reinforcement Learning},
author={Koyamada, Sotetsu and Okano, Shinri and Nishimori, Soichiro and Murata, Yu and Habara, Keigo and Kita, Haruka and Ishii, Shin},
booktitle={Advances in Neural Information Processing Systems},
pages={45716--45743},
volume={36},
year={2023}
}
Apache-2.0