เป็นรหัสต้นฉบับ (2020) ที่ใช้สำหรับกระดาษ
POMO: การเพิ่มประสิทธิภาพนโยบายด้วย Optima หลายรายการสำหรับการเรียนรู้แบบเสริมกำลัง
ได้รับการยอมรับที่ NeurIPS 2020
http://arxiv.org/abs/2010.16011 https://proceedings.neurips.cc/paper/2020/hash/f231f2107df69eab0a3862d50018a9b2-Abstract.html
ขึ้นอยู่กับไฟล์ ipynb และง่ายต่อการเล่นแบบโต้ตอบ
เป็นรหัสที่อัปเดตซึ่งมีโครงสร้างใหม่ในปี 2021
พวกมันใช้ไฟล์ py เพื่อให้สามารถรันบนเซิร์ฟเวอร์ได้ง่ายขึ้น