Это оригинальные коды (2020 г.), использованные в статье.
POMO: оптимизация политики с использованием нескольких оптимумов для обучения с подкреплением
принят на NeurIPS 2020
http://arxiv.org/abs/2010.16011 https://proceedings.neurips.cc/paper/2020/hash/f231f2107df69eab0a3862d50018a9b2-Abstract.html
Они основаны на файлах ipynb, и с ними легче играть в интерактивном режиме.
Это обновленные кодексы, структурированные по-новому в 2021 году.
Они основаны на файлах py, поэтому их легче запускать на серверах.