Es handelt sich um die Originalcodes (2020), die für das Papier verwendet wurden
POMO: Richtlinienoptimierung mit mehreren Optima für Reinforcement Learning
angenommen bei NeurIPS 2020
http://arxiv.org/abs/2010.16011 https://proceedings.neurips.cc/paper/2020/hash/f231f2107df69eab0a3862d50018a9b2-Abstract.html
Sie basieren auf IPYNB-Dateien und sind einfacher interaktiv zu spielen.
Es handelt sich um die aktualisierten Kodizes, die im Jahr 2021 neu strukturiert wurden.
Sie basieren auf PY-Dateien, sodass sie einfacher auf Servern ausgeführt werden können.