وهي الرموز الأصلية (2020) المستخدمة للورقة
POMO: تحسين السياسة باستخدام الحلول الأمثل المتعددة للتعلم المعزز
تم قبولها في NeurIPS 2020
http://arxiv.org/abs/2010.16011 https://proceedings.neurips.cc/paper/2020/hash/f231f2107df69eab0a3862d50018a9b2-Abstract.html
وهي مبنية على ملفات ipynb ويسهل اللعب بها بشكل تفاعلي.
إنها الرموز المحدثة، والتي تم تنظيمها حديثًا في عام 2021.
وهي مبنية على ملفات py، بحيث يمكن تشغيلها على الخوادم بسهولة أكبر.