applied reinforcement learningダウンロード - applied reinforcement learningソースコードダウンロード

applied reinforcement learning

AI ソースコード

1.0.0

ダウンロード

応用強化学習

私はここ数年、強化学習と意思決定について研究しています。私が遭遇した最も難しいことの 1 つは、必ずしも概念に関連しているわけではなく、それらの概念がどのように説明されているかということです。私にとって、学習とは、教えられている概念と結びつけることができたときに起こります。このためには、直感的な説明が必要になることが多く、おそらく実践的なアプローチがその種の理解を構築するのに役立ちます。

このリポジトリの私の目標は、初心者が直感的な方法で強化学習を理解するのに役立つリソースをコミュニティと協力して作成することです。ここにあるものを考えてください。これらの概念のいくつかをできるだけわかりやすく簡単に説明しようとした私の最初の試みを考えてください。

タイプミスであれ、テキストへの全体的な追加であれ、おそらくノートブックの修正であれ、まったく新しいノートブックであれ、共同作業をご希望の場合は、状況を改善するためにお気軽に問題やプルリクエストを送信してください。プルリクエストがリポジトリの目標と一致している限り、マージされる可能性が非常に高くなります。私は優れた教師でも強化学習の研究者でもありませんが、強化学習と意思決定を誰でも簡単に理解できるようにすることはできると信じています。まあ、少なくとも簡単です。

ノートブックのインストール
- gitをインストールする
- Dockerをインストールする
- ノートブックの実行
  - TL;DRバージョン
  - もう少し詳細なバージョン:
    - ブラウザでノートブックを開きます。
    - 次のアドレスで TensorBoard を開きます。
- ドッカーのヒント
パート I: はじめに
- 1. 意思決定の概要
  - 1.1 意思決定
  - 1.2 さらに読む
パート II: 強化学習と意思決定
- 2. 逐次決定
  - 2.1 意思決定の問題のモデル化
  - 2.2 ソリューションの表現
  - 2.3 単純な逐次問題
  - 2.4 もう少し複雑な問題
  - 2.5 ソリューションの評価
  - 2.6 ソリューションの改善
  - 2.7 最適なソリューションを見つける
  - 2.8 ポリシーの反復による改善
  - 2.9 演習
  - 2.10 さらに読む
- 3. 決定的および確率的アクション
  - 3.1 私たちは世界を完全にコントロールすることはできない
  - 3.2 確率論への対処
  - 3.3 演習
  - 3.4 さらに読む
- 4. 既知の環境と未知の環境
  - 4.1 環境のモデルがない場合はどうなりますか?
  - 4.2 探索する必要性
  - 4.3 何を学ぶべきか?
  - 4.4 学んだことをどうするか?
  - 4.5 アクションに小さなランダム性を追加する
  - 4.6 演習
  - 4.7 さらに読む
パート III: 困難な問題における意思決定
- 5. 離散状態と連続状態
  - 5.1 大きすぎてメモリに保持できない
  - 5.2 状態空間の離散化
  - 5.3 関数近似の使用
  - 5.4 演習
  - 5.5 さらに読む
- 6. 離散的および継続的アクション
  - 6.1 継続的なアクション空間
  - 6.2 アクション空間の離散化
  - 6.3 関数近似の使用
  - 6.4 ポリシーの検索
  - 6.5 演習
  - 6.6 さらに読む
- 7. 観察可能な状態と部分的に観察可能な状態
  - 7.1 私たちが見ているものは実際にあるのでしょうか?
  - 7.2 状態推定
  - 7.3 部分的に観測可能な環境における制御
  - 7.4 さらに読む
パート IV: 複数の意思決定主体
- 8. 単一および複数のエージェント
  - 8.1 同じ目的を持つエージェント
  - 8.2 他のエージェントがプレイしている場合はどうなりますか?
  - 8.3 さらに読む
- 9. 協力的エージェントと敵対的エージェント
  - 9.1 矛盾する目的を持つエージェント
  - 9.2 相反する目的を持つエージェントのチーム
  - 9.3 さらに読む
パート V: 人間の意思決定とその先へ
- 10. 意思決定と人間
  - 10.1 議論された方法と人間との類似点
  - 10.2 議論された方法と人間との違い
  - 10.3 さらに読む
- 11. 結論
- 12. おすすめの本
- 12. おすすめコース

ノートブックのインストール

このリポジトリには、講義に沿って学習できる Jupyter Notebook が含まれています。ただし、インストールする必要があるパッケージとアプリケーションがいくつかあります。作業を簡単にするために、手順に沿って使用できる再現可能な環境をセットアップするのに少し長い時間を費やしました。

gitをインストールする

(https://git-scm.com/book/en/v2/Getting-Started-Installing-Git) の手順に従ってください。

Dockerをインストールする

(https://docs.docker.com/engine/getstarted/step_one/#step-2-install-docker) の手順に従ってください。

ノートブックの実行

TL;DRバージョン

git clone [email protected]:mimoralea/applied-reinforcement-learning.git && cd applied-reinforcement-learning
docker pull mimoralea/openai-gym:v1
docker run -it --rm -p 8888:8888 -p 6006:6006 -v $PWD/notebooks/:/mnt/notebooks/ mimoralea/openai-gym:v1

もう少し詳細なバージョン:

目的の場所にリポジトリのクローンを作成します (例: git clone [email protected]:mimoralea/applied-reinforcement-learning.git ~/Projects/applied-reinforcement-learning )
リポジトリディレクトリに移動します (例: cd ~/Projects/applied-reinforcement-learning )
自分でビルドするか、すでにビルドされている Docker コンテナーをプルします。
3.1.これをビルドするには、コマンドdocker build -t mimoralea/openai-gym:v1 .
3.2. Docker ハブからプルするには、 docker pull mimoralea/openai-gym:v1を使用します。
コンテナーを実行します: docker run -it --rm -p 8888:8888 -p 6006:6006 -v $PWD/notebooks/:/mnt/notebooks/ mimoralea/openai-gym:v1

ブラウザでノートブックを開きます。

http://localhost:8888 (または、トークンが含まれる run コマンドから出たリンクをたどります)

次のアドレスで TensorBoard を開きます。

http://localhost:6006

これは、関数近似を使用したレッスンでニューラルネットワークを視覚化するのに役立ちます。

ドッカーのヒント

実行中のコンテナの bash セッションにアクセスしたい場合は、次のようにします。
** docker ps # は現在実行中のコンテナを表示します -- アクセスしようとしているコンテナの ID に注意してください
** docker exec --user root -it c3fbc82f1b49 /bin/bash # この場合、c3fbc82f1b49 は ID です
(Jupyter や TensorBoard を実行せずに) bash で新しいコンテナインスタンスを直接開始したい場合
** docker run -it --rm mimoralea/openai-gym:v1 /bin/bash # これにより、bash セッションが Notebook ユーザーとして実行されます
** docker run --user root -e GRANT_SUDO=yes -it --rm mimoralea/openai-gym:v1 /bin/bash # これにより、bash セッションが root として実行されます

拡大する

追加情報