genrl下载 - genrl源代码下载

genrl

其他源码

v0.0.2

下载

GenRL是一个Pytorch增强学习库，围绕可再现，可概括的算法实现并改善强化学习的可访问性

GenRL的当前版本为v0.0.2。期望破裂的变化

强化学习研究的移动速度比以往任何时候都更快。为了跟上不断增长的趋势并确保RL研究保持可再现，GenRL旨在通过提供以下主要特征来帮助更快的纸张再现和基准测试：

pytorch-First ：模块化，可扩展和惯用的python
教程和示例：从基本RL到SOTA DEEP RL算法的20多个教程（带有解释）！
统一的培训师和伐木类：代码可重复性和高级UI
现成的算法实现：流行RL算法的现成实现。
更快的基准测试：自动化超参数调整，环境实施等。

通过将这些功能集成到GenRL中，我们旨在最终支持少于100行的任何新算法实现。

如果您有兴趣做出贡献，请随时解决问题，文档，测试等。如果有任何问题，请查看贡献指南

安装

GenRL与Python 3.6或更高版本兼容，也取决于pytorch和openai-gym 。安装GenRL的最简单方法是使用Python的首选软件包安装程序PIP。

 $ pip install genrl

请注意，GenRL是一个活跃的项目，通常会发布新的版本。为了将GenRL升级到最新版本，请使用如下使用PIP。

 $ pip install -U genrl

如果您打算安装最新的未发布版本的库（即来自来源），则可以简单地做：

 $ git clone https://github.com/SforAiDl/genrl.git
$ cd genrl
$ python setup.py install

用法

在Pendulum-v0健身房环境中从头开始训练柔软的演员批判性模型，并在张板上登录奖励

 import gym

from genrl . agents import SAC
from genrl . trainers import OffPolicyTrainer
from genrl . environments import VectorEnv

env = VectorEnv ( "Pendulum-v0" )
agent = SAC ( 'mlp' , env )
trainer = OffPolicyTrainer ( agent , env , log_mode = [ 'stdout' , 'tensorboard' ])
trainer . train ()

在FrozenLake-v0健身房环境中从头开始训练表格dyna-Q模型，并进行奖励：

 import gym

from genrl . agents import QLearning
from genrl . trainers import ClassicalTrainer

env = gym . make ( "FrozenLake-v0" )
agent = QLearning ( env )
trainer = ClassicalTrainer ( agent , env , mode = "dyna" , model = "tabular" , n_episodes = 10000 )
episode_rewards = trainer . train ()
trainer . plot ( episode_rewards )

教程

多武装土匪
- 上限限制
- 汤普森采样
- 贝叶斯
- SoftMax动作选择
上下文匪徒
- 线性后推断
- 变分推断
- https://genrl.readthedocs.io/en/latest/usage/tutorials/bandit/bootstrap.html
- 参数噪声采样
深厚的增强学习背景
- 香草政策梯度
- 优势演员评论家
- 近端策略优化

算法

深RL

DQN（深Q网络）
- DQN
- 双DQN
- 决斗DQN
- 嘈杂的DQN
- 分类DQN
VPG（香草政策梯度）
A2C（Advantage Actor-Critic）
PPO（近端策略优化）
DDPG（深层确定性政策梯度）
TD3（双延迟DDPG）
SAC（软演员评论家）

古典RL

萨尔
Q学习

强盗RL

多武装土匪
- EPS贪婪
- UCB
- 汤普森采样
- 贝叶斯土匪
- SoftMax Explorer
上下文匪徒
- EPS贪婪
- UCB
- 汤普森采样
- 贝叶斯土匪
- SoftMax Explorer
深层上下文的土匪
- 变异推断
- 神经网络参数的噪声采样
- 具有神经网络的Epsilon Greedy
- 贝叶斯回归后推断
- bootstraped Ensemble