Download do genrl - Download de código fonte genrl

genrl

Outro código-fonte

v0.0.2

Baixar

Genrl é uma biblioteca de aprendizado de reforço Pytorch centrada em implementações de algoritmo reproduzível e generalizável e melhorando a acessibilidade no aprendizado de reforço

A versão atual do GENRL está em v0.0.2. Espere ruptura mudanças

A pesquisa de aprendizado de reforço está se movendo mais rápido do que nunca. Para acompanhar a tendência crescente e garantir que a pesquisa da RL permaneça reproduzível, o GENRL visa ajudar na reprodução e benchmark de papel mais rápidos, fornecendo os seguintes recursos principais:

Pytorch-primeiro : Python modular, extensível e idiomático
Tutoriais e Exemplo : Mais de 20 tutoriais do RL básico ao algoritmo SOTA Deep RL (com explicações)!
Treinador unificado e classe de registro : reutilização de código e interface de usuário de alto nível
Implementações de algoritmos prontos : implementações prontas de algoritmos RL populares.
Benchmarking mais rápido : ajuste automatizado de hiperparâmetro, implementações de meio ambiente etc.

Ao integrar esses recursos ao GENRL, pretendemos suportar qualquer nova implementação de algoritmo em menos de 100 linhas .

Se você estiver interessado em contribuir, sinta -se à vontade para passar pelos problemas e abrir o PRS para código, documentos, testes etc. Em caso de qualquer dúvida, confira as diretrizes que contribuíram

Instalação

O GENRL é compatível com o Python 3.6 ou posterior e também depende de pytorch e openai-gym . A maneira mais fácil de instalar o GENRL é com o Pip, o instalador de pacote preferido do Python.

 $ pip install genrl

Observe que o GENRL é um projeto ativo e publica rotineiramente novos lançamentos. Para atualizar o GENRL para a versão mais recente, use o PIP da seguinte maneira.

 $ pip install -U genrl

Se você pretende instalar a mais recente versão não lançada da biblioteca (ou seja, da fonte), você pode simplesmente fazer:

 $ git clone https://github.com/SforAiDl/genrl.git
$ cd genrl
$ python setup.py install

Uso

Para treinar um modelo mole de atores críticos do zero no ambiente de ginástica Pendulum-v0 e recompensas de log no Tensorboard

 import gym

from genrl . agents import SAC
from genrl . trainers import OffPolicyTrainer
from genrl . environments import VectorEnv

env = VectorEnv ( "Pendulum-v0" )
agent = SAC ( 'mlp' , env )
trainer = OffPolicyTrainer ( agent , env , log_mode = [ 'stdout' , 'tensorboard' ])
trainer . train ()

Para treinar um modelo tabular Dyna-Q do zero no ambiente de ginástica FrozenLake-v0 e recompensas da trama:

 import gym

from genrl . agents import QLearning
from genrl . trainers import ClassicalTrainer

env = gym . make ( "FrozenLake-v0" )
agent = QLearning ( env )
trainer = ClassicalTrainer ( agent , env , mode = "dyna" , model = "tabular" , n_episodes = 10000 )
episode_rewards = trainer . train ()
trainer . plot ( episode_rewards )

Tutoriais

Bandidos com vários armados
- Confiança superior limitada
- Amostragem de Thompson
- Bayesiano
- Seleção de ação do softmax
Bandidos contextuais
- Inferência posterior linear
- Inferência variacional
- https://genrl.readthedocs.io/en/latest/usage/tutorials/bandit/bootstrap.html
- Amostragem de ruído de parâmetro
Fundo de aprendizado de reforço profundo
- Gradientes de política de baunilha
- Vantagem do ator crítico
- Otimização de política proximal

Algoritmos

Rl profundo

DQN (redes Q Deep)
- Dqn
- Duplo dqn
- Duelo dqn
- DQN barulhento
- DQN categórico
VPG (Gradientes de Política de Vanilla)
A2C (vantagem ator-crítica)
PPO (otimização de política proximal)
DDPG (gradientes de política determinística profunda)
TD3 (DDPG tardio de Twin)
SAC (crítico de ator suave)

RL clássico

SARSA
Q Aprendizagem

Bandit RL

Bandidos com vários armados
- EPS ganancioso
- Ucb
- Amostragem de Thompson
- Bandidos bayesianos
- Softmax Explorer
Bandidos contextuais
- EPS ganancioso
- Ucb
- Amostragem de Thompson
- Bandidos bayesianos
- Softmax Explorer
Bandidos contextuais profundos
- Inferência de variação
- Amostragem de ruído para parâmetros de rede neural
- Epsilon ganancioso com uma rede neural
- Regressão bayesiana para inferência posterior
- Conjunto de bootstrape

Créditos e bibliotecas similares:

Academia - ambientes
Raio
Linhas de base Openai - Logger
Linhas de base estáveis 3: As linhas de base estáveis visam fornecer linhas de base para algoritmos profundos de RL.
Pytorch-A2C-PPO-ACKTR
Bandidos contextuais profundos

Expandir

Informações adicionais

Versão v0.0.2
Tipo Outro código-fonte
Data da Última Atualização 2025-03-02
tamanho 395.94KB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
chat.petals.dev

2024-11-30
Sunamu

2024-12-14
SmartTube

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
chat.petals.dev

Outro código-fonte

1.0.0
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos