mario ai下载-Mario mario ai源代码下载

mario ai

其他源码

1.0.0

下载

关于

该项目包含训练模型的代码，该模型将仅使用RAW像素作为输入（无手工设计功能）自动播放超级马里奥世界的第一级。如Atari论文（摘要）中所述，使用的技术是深Q学习，并结合了空间变压器。

视频

播放SMW的模型

方法论

基础知识，重播记忆

训练方法是带有重播记忆的深度Q学习，即模型观察屏幕的序列，将其保存到其内存中，然后在其上进行训练，其中“训练”意味着它学会了准确预测预期的动作奖励值（”动作“平均”按钮x”）基于收集的记忆。默认情况下，重播内存的大小为250k条目。当它开始满足时，新的条目代替了较旧的条目。对于培训批次，选择了示例（均匀分布），并根据网络到目前为止所学到的知识来重新估计记忆的回报。

输入，输出，动作

每个示例的输入都有以下结构：

最后的t动作，每个动作都是两旋转向量。（两个，因为该模型可以选择两个按钮：一个箭头按钮和一个/b/x/y。）
最后的t屏幕截图，每个屏幕截图都缩小到32x32尺寸（灰度，略微裁剪）。
最后的屏幕截图，尺寸为64x64（灰度，略微裁剪）。

t当前设置为4（请注意，这包括序列的最后一个状态）。屏幕在每个第五帧中都会捕获。每个示例的输出是所选操作的动作奖励值（接收到下一个状态的直接奖励 +折扣Q值）。该模型每个状态可以选择两个动作：一个箭头按钮（向上，向下，右，左）和其他控制按钮之一（a，b，x，y）。这与Atari模型不同，Atari模型只能一次选择一个按钮。（没有这种更改，理论上可能不会跳很多跳，这迫使您按下按钮并向右移动。）奖励功能的构造方式几乎永远不会是0，正是两个，正是两个每个示例的输出值预计为非零。

奖励功能

代理商获得以下奖励：

x差异奖励： +0.5如果代理向右移动，则+1.0如果它快速向右移动（与上一个游戏状态相比8个像素或更多），则-1.0 ，如果向左移动，则为-1.5 ，如果是-1.5快速移动向左（-8像素或更多）。
级别完成： +2.0 ，而级别的动画正在播放。
死亡： -3.0死亡动画在演奏时。

gamma （预期/间接奖励的折扣）设置为0.9 。

仅在得分上提高模型（例如在Atari纸上）的训练很可能是行不通的，因为当敌人的产卵位置在屏幕外移动时，敌人重生，因此代理商可以一次又一次地杀死它们，每次增加得分。

错误函数

选择性MSE用于训练代理。也就是说，对于每个示例梯度，就像是MSE一样。但是，如果目标奖励为0，则所有动作值的梯度都设置为0。这是因为每个示例仅包含一对选定按钮的接收奖励（箭头按钮，另一个按钮）。其他成对的行动是可能的，但代理商没有选择它们，因此对他们的奖励尚不清楚。他们的奖励值（按照示例）设置为0，但不是因为它们确实是0，而是因为我们不知道代理商选择了什么奖励。因此，对它们的反向传播梯度（即，如果代理预测值不相等，则是不合理的。

此实现可以负担得出基于奖励与0不相等的奖励，可以区分所选的和不是选择的按钮（在目标向量中），因为所选按钮的收到的奖励几乎从来没有完全0（由于构建奖励功能）。其他实现可能需要更多地照顾这一步骤。

政策

该政策是一项Epsilon-Greedy，始于Epsilon = 0.8，在第400k-the-the Chose的动作下退火至0.1。每当根据策略选择随机操作时，代理会抛出硬币（即50:50机会），然后随机将其两个（箭头，其他按钮）操作之一随机，或者将它们随机化。

模型架构

该模型由三个分支组成：

动作历史记录：列出先前选择的动作。添加的添加以使网络可以学习有时应该在地面上释放A-button（不停地按下它将阻止Mario跳跃）。还添加了，以便网络可以学会保持压力长/跳高。
- 该分支仅使用一个线性隐藏层。
屏幕截图历史记录：列出状态链的屏幕截图（包括最后一个状态）。所有屏幕截图都缩小到32x32（灰度）。该分支旨在让网络点运动。
- 该分支使用了一些跨越的卷积层。
- 一些RNN结构可能会更好。
最后一个屏幕截图：该分支在64x64（灰度）中接收了最后一个州的屏幕截图。它旨在让网络根据当前状态做出深入的决策。
- 它有一个子分支，将卷积应用于整个图像。
- 它有一个子分支，将卷积应用于感兴趣的区域，使用空间变压器提取该区域。

在分支的末尾，在到达输出神经元之前，将所有内容合并到一个通过隐藏层馈送的向量。这些输出神经元预测每个按下按钮的预期奖励。

网络概述：

Q architecture

空间变压器需要一个本地化网络，如下所示：

Localization net architecture

这两个网络总体上约为660万参数。

限制

该代理仅在第一层进行培训（首先是在开始时在Overworld的右侧）。其他级别由于代理几乎无法应对的各种困难而遭受了更大的损失。其中一些是：

跳跃难题。代理通常只会直接向右跳，直接进入死亡。
巨大的大炮球。要越过它们，您必须跳上他们或躲在他们的下面（大马里奥）或在它们下行走（小马里奥）。对于人类的新手球员来说，跳上他们的顶部甚至很难。由于Epsilon-Greedy的政策，对于特工来说，在他们下面的躲避或行走非常困难，这将使Mario跳跃然后立即死亡。
高墙/管。代理商必须保持压力以克服它们。同样，很难学习并与Epsilon-Greedy背道而驰。
水平管。这些有时位于区域的尽头，您应该走进他们进入下一个区域。代理人倾向于跳上他们（因为它喜欢跳跃）然后继续向右走，撞到墙壁。

第一级几乎没有这些困难，因此将自己放在DQN上，这就是为什么在这里使用它的原因。在任何级别上进行培训，然后对另一个级别进行测试也很困难，因为每个级别似乎都会引入新事物，例如新的和完全不同的敌人或新机械师（攀爬，新物品，将您挤死的物体等）。

用法

基本要求

Ubuntu。
一段时间。这不是一个简单的安装。
网络的2GB磁盘空间约为2GB并重播内存。
具有4+ GB内存的NVIDIA GPU。
库达。版本7或较新的应该做。
库丁。版本4或较新的应该做。

安装过程

确保安装了LUA 5.1。我在火炬中有5.2的问题。
确保安装了GCC 4.9或更高。仿真器将用GCC <4.9愉快地编译，但是当您实际使用时，有时会出现错误。
安装火炬。
- 遵循Torch.ch的步骤
- 确保安装以下软件包（ luarocks install packageName ）： nn ， cudnn ， paths ， image ， display 。显示通常不是火炬的一部分。
安装火炬的空间变压器模块：
- 克隆STNBHDW存储库到某个目录： git clone https://github.com/qassemoquab/stnbhwd.git
- 切换到该目录： cd stnbhwd
- 编译模块： luarocks make stnbhwd-scm-1.rockspec
安装sqlite3
- sudo apt-get install sqlite3 libsqlite3-dev
- luarocks install lsqlite3
编译模拟器：
- 下载LSNES RR2 BETA23的源代码。不是版本RR1！ （请注意，除LSNES以外的其他模拟器可能无法与该存储库中的代码一起使用。）
- 提取模拟器源代码并打开创建的目录。
- source/src/libray/lua.cpp并在namespace { ：
```
 #ifndef LUA_OK
#define LUA_OK 0
#endif

#ifdef LUA_ERRGCMM
	REGISTER_LONG_CONSTANT("LUA_ERRGCMM", LUA_ERRGCMM, CONST_PERSISTENT | CONST_CS);
#endif
```
  这使模拟器在LUA 5.1中运行。 LSNES RR2的新版本（比Beta23）可能不需要。
- source/include/core/controller.hpp ，然后将函数do_button_action从私人更改为公共。只需剪切行void do_button_action(const std::string& name, short newstate, int mode);在private:阻止并将其粘贴到public:块。
- source/src/lua/input.cpp和lua lua::functions LUA_input_fns(... （在文件末尾）插入：
```
	int do_button_action(lua::state& L, lua::parameters& P)
	{
		auto& core = CORE();

		std::string name;
		short newstate;
		int mode;

		P(name, newstate, mode);
		core.buttons->do_button_action(name, newstate, mode);
		return 1;
	}
```
  该方法实际上是从自定义LUA脚本中按下按钮的必要条件。模拟器的所有默认LUA功能都永远无法使用，因为core.lua2->input_controllerdata显然永远不会设置（BTW会让这些功能默默失败，即没有任何错误）。
- 再次在source/src/lua/input.cpp中，在block lua::functions LUA_input_fns(... ，添加do_button_action in到lua命令中，可以从模拟器中加载的lua脚本调用。 {"controller_info", controller_info}, to {"controller_info", controller_info}, {"do_button_action", do_button_action},
- 切换回source/ 。
- 用make编译模拟器。
  - 在此步骤中，您可能会遇到问题，需要大量的谷歌搜索来解决。这里没有更好的方法。
  - 如果您遇到Portaudio的问题，请将其停用在文件options.build中。
  - 如果您遇到诸如libwxgtk之类的问题，请安装软件包libwxgtk3.0-dev而不是2.8 dev，因为该软件包的官方页面可能会告诉您要这样做。
- 从source/执行sudo cp lsnes /usr/bin/ && sudo chown root:root /usr/bin/lsnes 。之后，您可以通过在控制台窗口中键入lsnes来启动LSNES。
现在创建一个ramdisk。这将用于保存游戏中的屏幕截图（以获取像素值）。执行以下操作：
- sudo mkdir /media/ramdisk
- sudo chmod 777 /media/ramdisk
- sudo mount -t tmpfs -o size=128M none /media/ramdisk && mkdir /media/ramdisk/mario-ai-screenshots
- 注意：您可以选择其他路径。然后，您将必须在config.lua中更改SCREENSHOT_FILEPATH 。
- 注意：您不必使用ramdisk，但是您的硬盘驱动器可能不会像保存大量屏幕截图所经常的磨损一样。

训练

克隆该存储库通过git clone https://github.com/aleju/mario-ai.git 。
cd进入创建的目录。
下载超级马里奥世界（美国）ROM。
通过在终端窗口中使用lsnes启动LSNES（来自存储库目录）。
在模拟器中，转到Configure -> Settings -> Advanced然后将LUA内存限制设置为1024MB。（只能完成一次。）
配置您的控制器按钮（ Configure -> Settings -> Controller ）。播放直到跨世界弹出。在那里，向右移动并开始该级别。稍微播放一个级别，并通过模拟器的File -> Save -> State到子目录states/train来保存少数状态。名称没关系，但是它们必须以.lsmv结束。（尝试在整个层面上传播各州。）
通过打开命令窗口并使用th -ldisplay.start启动显示服务器。如果您尚未安装显示，请使用luarocks install display 。
通过打开http://localhost:8000/在浏览器中打开显示服务器输出。
现在，通过Tools -> Run Lua script...并选择train.lua 。
预期的训练时间：大概10个小时，使用良好的硬件。（大约有0.50万的动作。）
您可以通过Tools -> Reset Lua VM停止培训。
如果您想从头开始重新启动培训（例如第二次运行），则必须在learned/中删除文件。请注意，您可以保留重播内存（ memory.sqlite ）并使用它训练新的网络。