São os códigos originais (2020) usados para o artigo
POMO: Otimização de Políticas com Múltiplos Ótimos para Aprendizagem por Reforço
aceito no NeurIPS 2020
http://arxiv.org/abs/2010.16011 https://proceedings.neurips.cc/paper/2020/hash/f231f2107df69eab0a3862d50018a9b2-Abstract.html
Eles são baseados em arquivos ipynb e são mais fáceis de jogar de forma interativa.
São os códigos atualizados, recém estruturados em 2021.
Eles são baseados em arquivos py, para que possam ser executados em servidores com mais facilidade.