Téléchargement de genrl - Téléchargement du code source genrl

genrl

Autre code source

v0.0.2

Télécharger

Genrl est une bibliothèque d'apprentissage en renforcement Pytorch centrée sur des implémentations d'algorithmes reproductibles et généralisables et d'amélioration de l'accessibilité dans l'apprentissage du renforcement

La version actuelle de Genrl est à V0.0.2. Attendez-vous à des changements de rupture

La recherche d'apprentissage par renforcement évolue plus rapidement que jamais. Afin de suivre la tendance croissante et de s'assurer que la recherche RL reste reproductible, Genrl vise à aider à la reproduction du papier et à l'analyse comparative en fournissant les principales caractéristiques suivantes:

Pytorch-First : Python modulaire, extensible et idiomatique
Tutoriels et exemple : 20+ tutoriels de Basic RL à Sota Deep RL Algorithme (avec explications)!
Entraîneur unifié et classe de journalisation : réutilisabilité du code et interface utilisateur de haut niveau
Implémentations d'algorithmes prêts à l'emploi : implémentations prêtes à l'emploi des algorithmes RL populaires.
Benchmarking plus rapide : réglage automatisé de l'hyperparamètre, implémentations de l'environnement, etc.

En intégrant ces fonctionnalités dans Genrl, nous visons à soutenir éventuellement toute nouvelle implémentation d'algorithme dans moins de 100 lignes .

Si vous êtes intéressé à contribuer, n'hésitez pas à passer par les problèmes et à ouvrir des RP pour le code, les documents, les tests, etc. En cas de questions, veuillez consulter les directives contributives

Installation

Genrl est compatible avec Python 3.6 ou version ultérieure et dépend également de pytorch et openai-gym . La façon la plus simple d'installer Genrl est avec PIP, le programme d'installation de package préféré de Python.

 $ pip install genrl

Notez que Genrl est un projet actif et publie régulièrement de nouvelles versions. Afin de mettre à niveau Genrl vers la dernière version, utilisez PIP comme suit.

 $ pip install -U genrl

Si vous avez l'intention d'installer la dernière version inédite de la bibliothèque (c'est-à-dire de Source), vous pouvez simplement faire:

 $ git clone https://github.com/SforAiDl/genrl.git
$ cd genrl
$ python setup.py install

Usage

Pour entraîner un modèle acteur-critique doux à partir de zéro sur l'environnement de gymnase Pendulum-v0 et les récompenses de journal sur Tensorboard

 import gym

from genrl . agents import SAC
from genrl . trainers import OffPolicyTrainer
from genrl . environments import VectorEnv

env = VectorEnv ( "Pendulum-v0" )
agent = SAC ( 'mlp' , env )
trainer = OffPolicyTrainer ( agent , env , log_mode = [ 'stdout' , 'tensorboard' ])
trainer . train ()

Pour entraîner un modèle tabulaire Dyna-Q à partir de zéro sur l'environnement de gym FrozenLake-v0 et les récompenses de l'intrigue:

 import gym

from genrl . agents import QLearning
from genrl . trainers import ClassicalTrainer

env = gym . make ( "FrozenLake-v0" )
agent = QLearning ( env )
trainer = ClassicalTrainer ( agent , env , mode = "dyna" , model = "tabular" , n_episodes = 10000 )
episode_rewards = trainer . train ()
trainer . plot ( episode_rewards )

Tutoriels

Bandits multi-armés
- Confiance supérieure liée
- Échantillonnage de Thompson
- Bayésien
- SoftMax Action Sélection
Bandits contextuels
- Inférence postérieure linéaire
- Inférence variationnelle
- https://genrl.readthedocs.io/en/latest/usage/tutorials/bandit/bootstrap.html
- Échantillonnage de bruit des paramètres
Contexte d'apprentissage en renforcement profond
- Gradients de politique de vanille
- Advantage acteur critique
- Optimisation de politique proximale

Algorithmes

RL profond

DQN (Networks Deep Q)
- Dqn
- DQN double
- Duel dqn
- DQN bruyant
- DQN catégorique
VPG (gradients de politique de vanille)
A2C (avantage acteur-critique)
PPO (Optimisation de la politique proximale)
DDPG (gradients de politique déterministe profonde)
TD3 (Twin retardé DDPG)
Sac (critique d'acteur doux)

RL classique

Sarsa
Q Apprentissage

Bandit RL

Bandits multi-armés
- Eps gourmand
- UCB
- Échantillonnage de Thompson
- Bandits bayésiens
- Explorateur softmax
Bandits contextuels
- Eps gourmand
- UCB
- Échantillonnage de Thompson
- Bandits bayésiens
- Explorateur softmax
Bandits contextuels profonds
- Inférence de variation
- Échantillonnage du bruit pour les paramètres du réseau neuronal
- Epsilon Greedy avec un réseau neuronal
- Régression bayésienne sur l'inférence postérieure
- Ensemble bootstrap

Crédits et bibliothèques similaires:

Gymnase - environnements
Rayon
Openai Baslines - Enregistreur
Lignes de base stables 3: les lignes de base stables visent à fournir des lignes de base pour les algorithmes RL profonds.
pytorch-a2c-pppo-backtr
Bandits contextuels profonds

Développer

Informations supplémentaires

Version v0.0.2
Type Autre code source
Date de mise à jour 2025-03-02
taille 395.94KB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
chat.petals.dev

2024-11-30
Sunamu

2024-12-14
SmartTube

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
chat.petals.dev

Autre code source

1.0.0
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout