genrl下載 - genrl源代碼下載

genrl

其他源碼

v0.0.2

下載

GenRL是一個Pytorch增強學習庫，圍繞可再現，可概括的算法實現並改善強化學習的可訪問性

GenRL的當前版本為v0.0.2。期望破裂的變化

強化學習研究的移動速度比以往任何時候都更快。為了跟上不斷增長的趨勢並確保RL研究保持可再現，GenRL旨在通過提供以下主要特徵來幫助更快的紙張再現和基準測試：

pytorch-First ：模塊化，可擴展和慣用的python
教程和示例：從基本RL到SOTA DEEP RL算法的20多個教程（帶有解釋）！
統一的培訓師和伐木類：代碼可重複性和高級UI
現成的算法實現：流行RL算法的現成實現。
更快的基準測試：自動化超參數調整，環境實施等。

通過將這些功能集成到GenRL中，我們旨在最終支持少於100行的任何新算法實現。

如果您有興趣做出貢獻，請隨時解決問題，文檔，測試等。如果有任何問題，請查看貢獻指南

安裝

GenRL與Python 3.6或更高版本兼容，也取決於pytorch和openai-gym 。安裝GenRL的最簡單方法是使用Python的首選軟件包安裝程序PIP。

 $ pip install genrl

請注意，GenRL是一個活躍的項目，通常會發布新的版本。為了將GenRL升級到最新版本，請使用如下使用PIP。

 $ pip install -U genrl

如果您打算安裝最新的未發布版本的庫（即來自來源），則可以簡單地做：

 $ git clone https://github.com/SforAiDl/genrl.git
$ cd genrl
$ python setup.py install

用法

在Pendulum-v0健身房環境中從頭開始訓練柔軟的演員批判性模型，並在張板上登錄獎勵

 import gym

from genrl . agents import SAC
from genrl . trainers import OffPolicyTrainer
from genrl . environments import VectorEnv

env = VectorEnv ( "Pendulum-v0" )
agent = SAC ( 'mlp' , env )
trainer = OffPolicyTrainer ( agent , env , log_mode = [ 'stdout' , 'tensorboard' ])
trainer . train ()

在FrozenLake-v0健身房環境中從頭開始訓練表格dyna-Q模型，並進行獎勵：

 import gym

from genrl . agents import QLearning
from genrl . trainers import ClassicalTrainer

env = gym . make ( "FrozenLake-v0" )
agent = QLearning ( env )
trainer = ClassicalTrainer ( agent , env , mode = "dyna" , model = "tabular" , n_episodes = 10000 )
episode_rewards = trainer . train ()
trainer . plot ( episode_rewards )

教程

多武裝土匪
- 上限限制
- 湯普森採樣
- 貝葉斯
- SoftMax動作選擇
上下文匪徒
- 線性後推斷
- 變分推斷
- https://genrl.readthedocs.io/en/latest/usage/tutorials/bandit/bootstrap.html
- 參數噪聲採樣
深厚的增強學習背景
- 香草政策梯度
- 優勢演員評論家
- 近端策略優化

演算法

深RL

DQN（深Q網絡）
- DQN
- 雙DQN
- 決鬥DQN
- 嘈雜的DQN
- 分類DQN
VPG（香草政策梯度）
A2C（Advantage Actor-Critic）
PPO（近端策略優化）
DDPG（深層確定性政策梯度）
TD3（雙延遲DDPG）
SAC（軟演員評論家）

古典RL

薩爾
Q學習

強盜RL

多武裝土匪
- EPS貪婪
- UCB
- 湯普森採樣
- 貝葉斯土匪
- SoftMax Explorer
上下文匪徒
- EPS貪婪
- UCB
- 湯普森採樣
- 貝葉斯土匪
- SoftMax Explorer
深層上下文的土匪
- 變異推斷
- 神經網絡參數的噪聲採樣
- 具有神經網絡的Epsilon Greedy
- 貝葉斯回歸後推斷
- bootstraped Ensemble