genrl 다운로드 - genrl 소스 코드 다운로드

genrl

기타 소스코드

v0.0.2

다운로드

GenRL

GenRL의 현재 릴리스는 V0.0.2에 있습니다. 변화를 예상합니다

강화 학습 연구는 그 어느 때보 다 빠르게 움직이고 있습니다. GenRL은 증가하는 추세를 유지하고 RL 연구가 계속 재현 가능하도록하기 위해 다음과 같은 주요 기능을 제공함으로써 더 빠른 종이 재생산 및 벤치마킹을 돕는 것을 목표로합니다.

Pytorch-first : 모듈 식, 확장 가능 및 관용적 인 파이썬
튜토리얼 및 예 : 기본 RL에서 Sota Deep RL 알고리즘 (설명 포함)까지 20 개 이상의 튜토리얼!
통합 트레이너 및 로깅 클래스 : 코드 재사용 및 고급 UI
기성품 알고리즘 구현 : 인기있는 RL 알고리즘의 기성품 구현.
더 빠른 벤치마킹 : 자동화 된 하이퍼 파라미터 튜닝, 환경 구현 등

이러한 기능을 GERRL에 통합함으로써 결국 100 줄 미만의 새로운 알고리즘 구현을 지원하는 것을 목표로합니다.

기여에 관심이 있으시면 문제를 해결하고 코드, 문서, 테스트 등에 대한 PR을 열어주십시오. 질문이 있으시면 기여 가이드 라인을 확인하십시오.

설치

genrl은 Python 3.6 이상과 호환되며 pytorch 및 openai-gym 에도 의존합니다. GenRL을 설치하는 가장 쉬운 방법은 Python이 선호하는 패키지 설치 프로그램 인 PIP를 사용하는 것입니다.

 $ pip install genrl

GenRL은 활발한 프로젝트이며 일상적으로 새로운 릴리스를 게시합니다. genrl을 최신 버전으로 업그레이드하려면 PIP를 다음과 같이 사용하십시오.

 $ pip install -U genrl

최신 미공개 버전의 라이브러리 (즉, 소스에서)를 설치하려는 경우 간단히 할 수 있습니다.

 $ git clone https://github.com/SforAiDl/genrl.git
$ cd genrl
$ python setup.py install

용법

Pendulum-v0 체육관 환경에서 처음부터 부드러운 액터 크리치 모델을 훈련하려면 Tensorboard의 로그 보상

 import gym

from genrl . agents import SAC
from genrl . trainers import OffPolicyTrainer
from genrl . environments import VectorEnv

env = VectorEnv ( "Pendulum-v0" )
agent = SAC ( 'mlp' , env )
trainer = OffPolicyTrainer ( agent , env , log_mode = [ 'stdout' , 'tensorboard' ])
trainer . train ()

FrozenLake-v0 체육관 환경에서 처음부터 Tabular Dyna-Q 모델을 훈련시키고 보상을 줄임 :

 import gym

from genrl . agents import QLearning
from genrl . trainers import ClassicalTrainer

env = gym . make ( "FrozenLake-v0" )
agent = QLearning ( env )
trainer = ClassicalTrainer ( agent , env , mode = "dyna" , model = "tabular" , n_episodes = 10000 )
episode_rewards = trainer . train ()
trainer . plot ( episode_rewards )

튜토리얼

멀티 무장 도적
- 상위 신뢰가 묶여 있습니다
- 톰슨 샘플링
- 베이지안
- SoftMax 액션 선택
상황에 맞는 도적
- 선형 후방 추론
- 변형 추론
- https://genrl.readthedocs.io/en/latest/usage/tutorials/bandit/bootstrap.html
- 매개 변수 노이즈 샘플링
깊은 강화 학습 배경
- 바닐라 정책 구배
- 유리한 배우 비평가
- 근위 정책 최적화

알고리즘

깊은 rl

DQN (Deep Q 네트워크)
- DQN
- 이중 DQN
- 결투 dqn
- 시끄러운 DQN
- 범주 형 DQN
VPG (바닐라 정책 그라디언트)
A2C (Advantage Actor-Critic)
PPO (근위 정책 최적화)
DDPG (심층 결정 론적 정책 그라디언트)
TD3 (트윈 지연 DDPG)
SAC (소프트 배우 비평가)

클래식 rl

사르 사
Q 학습

산적 rl

멀티 무장 도적
- EPS Greedy
- UCB
- 톰슨 샘플링
- 베이지안 도적
- SoftMax Explorer
상황에 맞는 도적
- EPS Greedy
- UCB
- 톰슨 샘플링
- 베이지안 도적
- SoftMax Explorer
깊은 맥락 도적
- 변형 추론
- 신경망 매개 변수에 대한 노이즈 샘플링
- 신경망을 가진 엡실론 탐욕
- 후방 추론에 대한 베이지안 회귀
- 부트 스트레이트 앙상블