Descarga de genrl - Descarga del código fuente genrl

genrl

Otro código fuente

v0.0.2

Descargar

GenRL es una biblioteca de aprendizaje de refuerzo de Pytorch centrada en implementaciones de algoritmos reproducibles y generalizables y mejorando la accesibilidad en el aprendizaje de refuerzo

La versión actual de GenRL está en V0.0.2. Espere cambios de ruptura

La investigación de aprendizaje de refuerzo se mueve más rápido que nunca. Para mantenerse al día con la tendencia creciente y garantizar que la investigación de RL sea reproducible, GenRL tiene como objetivo ayudar a la reproducción y la evaluación comparativa de papel más rápida al proporcionar las siguientes características principales:

Pytorch-First : Python modular, extensible e idiomática
Tutoriales y Ejemplo : ¡20+ tutoriales desde el algoritmo RL de RL Basic hasta Sota Deep (con explicaciones)!
Entrenador unificado y clase de registro : reutilización del código y interfaz de usuario de alto nivel
Implementaciones de algoritmos preparados : implementaciones preparadas de algoritmos RL populares.
Benchmarking más rápido : ajuste automatizado de hiperparameter, implementaciones del entorno, etc.

Al integrar estas características en GenRL, nuestro objetivo es eventualmente apoyar cualquier nueva implementación de algoritmo en menos de 100 líneas .

Si está interesado en contribuir, no dude en pasar por los problemas y abrir PRS para código, documentos, pruebas, etc. En caso de cualquier pregunta, consulte las pautas contribuyentes

Instalación

GenRL es compatible con Python 3.6 o posterior y también depende de pytorch y openai-gym . La forma más fácil de instalar GenRL es con Pip, el instalador de paquetes preferidos de Python.

 $ pip install genrl

Tenga en cuenta que GenRL es un proyecto activo y publica rutinariamente nuevos lanzamientos. Para actualizar GENRL a la última versión, use PIP de la siguiente manera.

 $ pip install -U genrl

Si tiene la intención de instalar la última versión inédita de la biblioteca (es decir, desde la fuente), simplemente puede hacer:

 $ git clone https://github.com/SforAiDl/genrl.git
$ cd genrl
$ python setup.py install

Uso

Para entrenar un modelo crítico de actor suave desde cero en el entorno del gimnasio Pendulum-v0 y las recompensas de registro en Tensorboard

 import gym

from genrl . agents import SAC
from genrl . trainers import OffPolicyTrainer
from genrl . environments import VectorEnv

env = VectorEnv ( "Pendulum-v0" )
agent = SAC ( 'mlp' , env )
trainer = OffPolicyTrainer ( agent , env , log_mode = [ 'stdout' , 'tensorboard' ])
trainer . train ()

Para entrenar un modelo Tabular Dyna-Q desde cero en el entorno de gimnasio FrozenLake-v0 y recompensas de la trama:

 import gym

from genrl . agents import QLearning
from genrl . trainers import ClassicalTrainer

env = gym . make ( "FrozenLake-v0" )
agent = QLearning ( env )
trainer = ClassicalTrainer ( agent , env , mode = "dyna" , model = "tabular" , n_episodes = 10000 )
episode_rewards = trainer . train ()
trainer . plot ( episode_rewards )

Tutoriales

Bandidos múltiples
- Confianza superior ligada
- Muestreo de Thompson
- Bayesiano
- Selección de acción Softmax
Bandidos contextuales
- Inferencia posterior lineal
- Inferencia variacional
- https://genrl.readthedocs.io/en/latest/usage/tutorials/bandit/bootstrap.html
- Muestreo de ruido de parámetros
Antecedentes de aprendizaje de refuerzo profundo
- Gradientes de política de vainilla
- Advantage actor crítico
- Optimización de políticas proximales

Algoritmos

Profundo rl

DQN (redes Q profundas)
- Dqn
- Doble dqn
- Duelo DQN
- Ruidoso dqn
- DQN categórico
VPG (gradientes de políticas de vainilla)
A2C (ventaja actor-crítico)
PPO (optimización de políticas proximales)
DDPG (gradientes de políticas deterministas profundas)
TD3 (DDPG retrasado gemelo)
SAC (crítico de actor blando)

RL clásico

Sarsa
Q aprendizaje

Bandit RL

Bandidos múltiples
- EPS codicioso
- UCB
- Muestreo de Thompson
- Bandidos bayesianos
- Softmax Explorer
Bandidos contextuales
- EPS codicioso
- UCB
- Muestreo de Thompson
- Bandidos bayesianos
- Softmax Explorer
Bandidos contextuales profundos
- Inferencia de variación
- Muestreo de ruido para parámetros de red neuronal
- Epsilon codicioso con una red neuronal
- Regresión bayesiana por inferencia posterior
- Conjunto bootstraped

Créditos y bibliotecas similares:

Gimnasio - entornos
Rayo
Líneas de base de Operai - Logger
Líneas de base estables 3: Las líneas de base estables tienen como objetivo proporcionar líneas de base para algoritmos RL profundos.
Pytorch-A2C-PPO-AacktR
Bandidos contextuales profundos

Expandir

Información adicional

Versión v0.0.2
Tipo Otro código fuente
Fecha de actualización 2025-03-02
tamaño 395.94KB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
chat.petals.dev

2024-11-30
Sunamu

2024-12-14
SmartTube

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
chat.petals.dev

Otro código fuente

1.0.0
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo