它们是论文使用的原始代码(2020)
POMO:强化学习的多重最优策略优化
被 NeurIPS 2020 接受
http://arxiv.org/abs/2010.16011 https://proceedings.neurips.cc/paper/2020/hash/f231f2107df69eab0a3862d50018a9b2-Abstract.html
它们基于 ipynb 文件,更易于交互使用。
它们是 2021 年新构建的更新代码。
它们基于py文件,因此可以更轻松地在服务器上运行。