Son los códigos originales (2020) utilizados para el artículo.
POMO: Optimización de políticas con múltiples óptimos para el aprendizaje por refuerzo
aceptado en NeurIPS 2020
http://arxiv.org/abs/2010.16011 https://proceedings.neurips.cc/paper/2020/hash/f231f2107df69eab0a3862d50018a9b2-Abstract.html
Se basan en archivos ipynb y es más fácil jugar con ellos de forma interactiva.
Son los códigos actualizados, recién estructurados en 2021.
Se basan en archivos py, para que puedan ejecutarse en servidores más fácilmente.