これらは論文に使用されたオリジナルのコード(2020)です
POMO: 強化学習のための複数の最適化を使用したポリシーの最適化
NeurIPS 2020に採択されました
http://arxiv.org/abs/2010.16011 https://proceedings.neurips.cc/paper/2020/hash/f231f2107df69eab0a3862d50018a9b2-Abstract.html
これらは ipynb ファイルに基づいており、対話的に操作するのが簡単です。
これらは、2021 年に新しく構成された更新されたコードです。
これらは py ファイルに基づいているため、サーバー上でより簡単に実行できます。