它們是論文使用的原始碼(2020)
POMO:強化學習的多重最優策略最佳化
被 NeurIPS 2020 接受
http://arxiv.org/abs/2010.16011 https://proceedings.neurips.cc/paper/2020/hash/f231f2107df69eab0a3862d50018a9b2-Abstract.html
它們基於 ipynb 文件,更易於互動使用。
它們是 2021 年新建的更新程式碼。
它們基於py文件,因此可以更輕鬆地在伺服器上運行。