Itu adalah kode asli (2020) yang digunakan untuk kertas tersebut
POMO: Optimalisasi Kebijakan dengan Multiple Optima untuk Pembelajaran Penguatan
diterima di NeurIPS 2020
http://arxiv.org/abs/2010.16011 https://proceedings.neurips.cc/paper/2020/hash/f231f2107df69eab0a3862d50018a9b2-Abstract.html
Mereka didasarkan pada file ipynb dan lebih mudah dimainkan secara interaktif.
Itu adalah kode yang diperbarui, baru disusun pada tahun 2021.
Mereka didasarkan pada file py, sehingga dapat dijalankan di server dengan lebih mudah.