논문에 사용된 원본 코드(2020)입니다.
POMO: 강화 학습을 위한 다중 최적화를 통한 정책 최적화
NeurIPS 2020에서 승인됨
http://arxiv.org/abs/2010.16011 https://proceedings.neurips.cc/paper/2020/hash/f231f2107df69eab0a3862d50018a9b2-Abstract.html
ipynb 파일을 기반으로 하며 대화식으로 플레이하기가 더 쉽습니다.
2021년에 새롭게 구성된 업데이트된 코드입니다.
py 파일을 기반으로 하므로 서버에서 더 쉽게 실행할 수 있습니다.