genrlダウンロードgenrlソースコードのダウンロード

genrl

その他のソースコード

v0.0.2

ダウンロード

GENRLは、再現可能で一般化可能なアルゴリズムの実装と強化学習のアクセシビリティの改善を中心としたPytorch Renecertion Learning Libraryです

GenRLの現在のリリースはv0.0.2です。変化の変化を期待してください

強化学習研究は、かつてないほど速く動いています。成長傾向に対応し、RLの研究が再現性を維持することを保証するために、GenRLは、次の主な機能を提供することにより、より速い紙の複製とベンチマークを支援することを目指しています。

Pytorch-first ：モジュラー、拡張可能、慣用的なPython
チュートリアルと例：基本RLからSota Deep RLアルゴリズムまでの20+チュートリアル（説明付き）！
統一されたトレーナーとロギングクラス：コードの再利用性と高レベルのUI
既製のアルゴリズムの実装：一般的なRLアルゴリズムの既製の実装。
より高速なベンチマーク：自動化されたハイパーパラメーターチューニング、環境の実装など。

これらの機能をGenRLに統合することにより、最終的に100行未満で新しいアルゴリズムの実装をサポートすることを目指しています。

貢献に興味がある場合は、コード、ドキュメント、テストなどのPRSをお気軽に調べてください。質問がある場合は、貢献ガイドラインをご覧ください。

インストール

GenRLはPython 3.6以降と互換性があり、 pytorchとopenai-gymにも依存しています。 GenRLをインストールする最も簡単な方法は、Pythonの優先パッケージインストーラーであるPIPを使用することです。

 $ pip install genrl

GenRLはアクティブなプロジェクトであり、日常的に新しいリリースを公開していることに注意してください。 GenRLを最新バージョンにアップグレードするには、次のようにPIPを使用します。

 $ pip install -U genrl

ライブラリの最新の未発表バージョン（IE Source）をインストールする場合は、次のことを行うことができます。

 $ git clone https://github.com/SforAiDl/genrl.git
$ cd genrl
$ python setup.py install

使用法

Pendulum-v0ジム環境で柔らかい俳優の批判的なモデルをゼロから訓練し、テンソルボードでのログ報酬を訓練する

 import gym

from genrl . agents import SAC
from genrl . trainers import OffPolicyTrainer
from genrl . environments import VectorEnv

env = VectorEnv ( "Pendulum-v0" )
agent = SAC ( 'mlp' , env )
trainer = OffPolicyTrainer ( agent , env , log_mode = [ 'stdout' , 'tensorboard' ])
trainer . train ()

FrozenLake-v0ジム環境で四角いDyna-Qモデルをゼロから訓練し、報酬をプロットするには：

 import gym

from genrl . agents import QLearning
from genrl . trainers import ClassicalTrainer

env = gym . make ( "FrozenLake-v0" )
agent = QLearning ( env )
trainer = ClassicalTrainer ( agent , env , mode = "dyna" , model = "tabular" , n_episodes = 10000 )
episode_rewards = trainer . train ()
trainer . plot ( episode_rewards )

チュートリアル

複数の武装した盗賊
- 上部信頼境界
- トンプソンサンプリング
- ベイジアン
- SoftMaxアクション選択
文脈的盗賊
- 線形後方推論
- 変分推論
- https://genrl.readthedocs.io/en/latest/usage/tutorials/bandit/bootstrap.html
- パラメーターノイズサンプリング
深い補強学習の背景
- バニラポリシーグラデーション
- アドバンテージ俳優評論家
- 近位政策最適化

アルゴリズム

ディープRL

DQN（ディープQネットワーク）
- DQN
- ダブルDQN
- DQNの決闘
- 騒々しいDQN
- カテゴリDQN
VPG（バニラポリシーグラデーション）
A2C（Advantage Actor-Critic）
PPO（近位政策最適化）
DDPG（深い決定論的ポリシーグラデーション）
TD3（ツイン遅延DDPG）
SAC（ソフト俳優評論家）

クラシックRL

サルサ
Q学習

Bandit RL

複数の武装した盗賊
- EPS貪欲
- UCB
- トンプソンサンプリング
- ベイジアンバンディット
- SoftMaxエクスプローラー
文脈的盗賊
- EPS貪欲
- UCB
- トンプソンサンプリング
- ベイジアンバンディット
- SoftMaxエクスプローラー
深い文脈的盗賊
- 変動推論
- ニューラルネットワークパラメーターのノイズサンプリング
- ニューラルネットワークを備えたEpsilon貪欲
- 事後推論のベイジアン回帰
- ブートストラップアンサンブル