genrl
v0.0.2
GenRL
GenRL의 현재 릴리스는 V0.0.2에 있습니다. 변화를 예상합니다
강화 학습 연구는 그 어느 때보 다 빠르게 움직이고 있습니다. GenRL은 증가하는 추세를 유지하고 RL 연구가 계속 재현 가능하도록하기 위해 다음과 같은 주요 기능을 제공함으로써 더 빠른 종이 재생산 및 벤치마킹을 돕는 것을 목표로합니다.
이러한 기능을 GERRL에 통합함으로써 결국 100 줄 미만의 새로운 알고리즘 구현을 지원하는 것을 목표로합니다.
기여에 관심이 있으시면 문제를 해결하고 코드, 문서, 테스트 등에 대한 PR을 열어주십시오. 질문이 있으시면 기여 가이드 라인을 확인하십시오.
genrl은 Python 3.6 이상과 호환되며 pytorch
및 openai-gym
에도 의존합니다. GenRL을 설치하는 가장 쉬운 방법은 Python이 선호하는 패키지 설치 프로그램 인 PIP를 사용하는 것입니다.
$ pip install genrl
GenRL은 활발한 프로젝트이며 일상적으로 새로운 릴리스를 게시합니다. genrl을 최신 버전으로 업그레이드하려면 PIP를 다음과 같이 사용하십시오.
$ pip install -U genrl
최신 미공개 버전의 라이브러리 (즉, 소스에서)를 설치하려는 경우 간단히 할 수 있습니다.
$ git clone https://github.com/SforAiDl/genrl.git
$ cd genrl
$ python setup.py install
Pendulum-v0
체육관 환경에서 처음부터 부드러운 액터 크리치 모델을 훈련하려면 Tensorboard의 로그 보상
import gym
from genrl . agents import SAC
from genrl . trainers import OffPolicyTrainer
from genrl . environments import VectorEnv
env = VectorEnv ( "Pendulum-v0" )
agent = SAC ( 'mlp' , env )
trainer = OffPolicyTrainer ( agent , env , log_mode = [ 'stdout' , 'tensorboard' ])
trainer . train ()
FrozenLake-v0
체육관 환경에서 처음부터 Tabular Dyna-Q 모델을 훈련시키고 보상을 줄임 :
import gym
from genrl . agents import QLearning
from genrl . trainers import ClassicalTrainer
env = gym . make ( "FrozenLake-v0" )
agent = QLearning ( env )
trainer = ClassicalTrainer ( agent , env , mode = "dyna" , model = "tabular" , n_episodes = 10000 )
episode_rewards = trainer . train ()
trainer . plot ( episode_rewards )