applied reinforcement learning下载 - applied reinforcement learning源代码下载

applied reinforcement learning

Ai源码

1.0.0

下载

应用强化学习

我研究强化学习和决策已经有几年了。我遇到的最困难的事情之一不一定与概念有关，而是与如何解释这些概念有关。对我来说，当一个人能够与所教授的概念建立联系时，学习就发生了。为此，通常需要直观的解释，并且实践方法可能有助于建立这种理解。

我创建这个存储库的目标是与社区一起创建一个资源，帮助新手以直观的方式理解强化学习。考虑一下您在这里看到的内容，我最初尝试尽可能简单明了地教授其中一些概念。

如果您愿意合作，无论是拼写错误还是对文本的全部添加，也许是对笔记本或全新笔记本的修复，请随时发送您的问题和/或拉取请求以使事情变得更好。只要您的拉取请求与存储库的目标一致，我们很可能会合并。我不是最好的老师，也不是强化学习研究者，但我相信我们可以让强化学习和决策变得容易为任何人所理解。好吧，至少更容易。

笔记本安装
- 安装git
- 安装 Docker
- 运行笔记本
  - TL;DR 版本
  - 更详细一点的版本：
    - 在浏览器中打开笔记本：
    - 打开TensorBoard，地址如下：
- Docker 技巧
第一部分：简介
- 1. 决策简介
  - 1.1 决策
  - 1.2 进一步阅读
第二部分：强化学习和决策
- 2. 顺序决策
  - 2.1 决策问题建模
  - 2.2 解表示
  - 2.3 简单序列问题
  - 2.4 稍微复杂一点的问题
  - 2.5 评估解决方案
  - 2.6 解决方案的改进
  - 2.7 寻找最优解
  - 2.8 策略迭代的改进
  - 2.9 练习
  - 2.10 进一步阅读
- 3. 确定性和随机性行为
  - 3.1 我们无法完美控制世界
  - 3.2 处理随机性
  - 3.3 练习
  - 3.4 进一步阅读
- 4.已知和未知环境
  - 4.1 如果我们没有环境模型怎么办？
  - 4.2 探索的必要性
  - 4.3 学习什么？
  - 4.4 我们如何利用所学到的知识？
  - 4.5 为你的行为添加小的随机性
  - 4.6 练习
  - 4.7 进一步阅读
第三部分：难题中的决策
- 5. 离散和连续状态
  - 5.1 太大而无法保存在内存中
  - 5.2 状态空间的离散化
  - 5.3 函数逼近的使用
  - 5.4 练习
  - 5.5 进一步阅读
- 6. 离散和连续动作
  - 6.1 连续动作空间
  - 6.2 动作空间的离散化
  - 6.3 函数逼近的使用
  - 6.4 策略搜索
  - 6.5 练习
  - 6.6 进一步阅读
- 7. 可观察和部分可观察状态
  - 7.1 我们所看到的就是它的本质吗？
  - 7.2 状态估计
  - 7.3 部分可观测环境中的控制
  - 7.4 进一步阅读
第四部分：多个决策代理
- 8. 单个和多个代理
  - 8.1 具有相同目标的代理
  - 8.2 当其他智能体在玩时怎么办？
  - 8.3 进一步阅读
- 9. 合作和对抗代理
  - 9.1 目标相互冲突的主体
  - 9.2 目标相互冲突的代理人团队
  - 9.3 进一步阅读
第五部分：人类决策及其他决策
- 10.决策与人类
  - 10.1 所讨论的方法与人类的相似之处
  - 10.2 所讨论的方法与人类之间的差异
  - 10.3 进一步阅读
- 11. 结论
- 12. 推荐书籍
- 12. 推荐课程

笔记本安装

该存储库包含可与讲座一起使用的 Jupyter Notebooks。但是，有几个软件包和应用程序需要安装。为了让您更轻松，我花了更长的时间来设置一个可重现的环境，您可以使用它来进行后续操作。

安装git

按照 (https://git-scm.com/book/en/v2/Getting-Started-Installing-Git) 中的说明进行操作

安装 Docker

按照 (https://docs.docker.com/engine/getstarted/step_one/#step-2-install-docker) 中的说明进行操作

运行笔记本

TL;DR 版本

git clone [email protected]:mimoralea/applied-reinforcement-learning.git && cd applied-reinforcement-learning
docker pull mimoralea/openai-gym:v1
docker run -it --rm -p 8888:8888 -p 6006:6006 -v $PWD/notebooks/:/mnt/notebooks/ mimoralea/openai-gym:v1

更详细一点的版本：

将存储库克隆到所需位置（例如git clone [email protected]:mimoralea/applied-reinforcement-learning.git ~/Projects/applied-reinforcement-learning ）
进入存储库目录（例如cd ~/Projects/applied-reinforcement-learning ）
自己构建或拉取已构建的 Docker 容器：
3.1.要构建它，请使用以下命令： docker build -t mimoralea/openai-gym:v1 .
3.2.要从 Docker hub 中拉取它，请使用： docker pull mimoralea/openai-gym:v1
运行容器： docker run -it --rm -p 8888:8888 -p 6006:6006 -v $PWD/notebooks/:/mnt/notebooks/ mimoralea/openai-gym:v1

在浏览器中打开笔记本：

http://localhost:8888 （或者点击运行命令中出现的链接，其中将包含令牌）

打开TensorBoard，地址如下：

http://localhost:6006

这将帮助您在课程中通过函数逼近可视化神经网络。

Docker 技巧

如果您想访问正在运行的容器的 bash 会话，请执行以下操作：
** docker ps # 将显示当前正在运行的容器——记下您尝试访问的容器的 ID
** docker exec --user root -it c3fbc82f1b49 /bin/bash # 在本例中 c3fbc82f1b49 是 id
如果您想直接在 bash 中启动新的容器实例（不运行 Jupyter 或 TensorBoard）
** docker run -it --rm mimoralea/openai-gym:v1 /bin/bash # 这将以笔记本用户身份运行 bash 会话
** docker run --user root -e GRANT_SUDO=yes -it --rm mimoralea/openai-gym:v1 /bin/bash # 这将以 root 身份运行 bash 会话

展开

附加信息