genrl
v0.0.2
GenRL是一個Pytorch增強學習庫,圍繞可再現,可概括的算法實現並改善強化學習的可訪問性
GenRL的當前版本為v0.0.2。期望破裂的變化
強化學習研究的移動速度比以往任何時候都更快。為了跟上不斷增長的趨勢並確保RL研究保持可再現,GenRL旨在通過提供以下主要特徵來幫助更快的紙張再現和基準測試:
通過將這些功能集成到GenRL中,我們旨在最終支持少於100行的任何新算法實現。
如果您有興趣做出貢獻,請隨時解決問題,文檔,測試等。如果有任何問題,請查看貢獻指南
GenRL與Python 3.6或更高版本兼容,也取決於pytorch
和openai-gym
。安裝GenRL的最簡單方法是使用Python的首選軟件包安裝程序PIP。
$ pip install genrl
請注意,GenRL是一個活躍的項目,通常會發布新的版本。為了將GenRL升級到最新版本,請使用如下使用PIP。
$ pip install -U genrl
如果您打算安裝最新的未發布版本的庫(即來自來源),則可以簡單地做:
$ git clone https://github.com/SforAiDl/genrl.git
$ cd genrl
$ python setup.py install
在Pendulum-v0
健身房環境中從頭開始訓練柔軟的演員批判性模型,並在張板上登錄獎勵
import gym
from genrl . agents import SAC
from genrl . trainers import OffPolicyTrainer
from genrl . environments import VectorEnv
env = VectorEnv ( "Pendulum-v0" )
agent = SAC ( 'mlp' , env )
trainer = OffPolicyTrainer ( agent , env , log_mode = [ 'stdout' , 'tensorboard' ])
trainer . train ()
在FrozenLake-v0
健身房環境中從頭開始訓練表格dyna-Q模型,並進行獎勵:
import gym
from genrl . agents import QLearning
from genrl . trainers import ClassicalTrainer
env = gym . make ( "FrozenLake-v0" )
agent = QLearning ( env )
trainer = ClassicalTrainer ( agent , env , mode = "dyna" , model = "tabular" , n_episodes = 10000 )
episode_rewards = trainer . train ()
trainer . plot ( episode_rewards )