mario aiダウンロードmario aiソースコードのダウンロード

mario ai

その他のソースコード

1.0.0

ダウンロード

について

このプロジェクトには、入力として生のピクセルのみを使用してスーパーマリオワールドの最初のレベルを自動的に再生するモデルをトレーニングするコードが含まれています（手工学的機能なし）。使用済みの手法は、Atari Paper（要約）に記載されているように、空間変圧器と組み合わせた深いQラーニングです。

ビデオ

SMWを再生するモデル

方法論

基本、リプレイメモリ

トレーニング方法は、リプレイメモリを使用した深いQラーニングです。つまり、モデルはスクリーンのシーケンスを観察し、メモリに保存し、後にトレーニングを行います。「トレーニング」は、予想されるアクション報酬値を正確に予測することを学習することを意味します（」アクションは、収集された記憶に基づいて、「ボタンXを押す」を意味します。リプレイメモリには、デフォルトでは250Kエントリのサイズがあります。それがいっぱいになり始めると、新しいエントリは古いエントリを置き換えます。トレーニングバッチの場合、例はランダムに選択され（均一な分布）、メモリの報酬は、これまでネットワークが学んだことに基づいて再推定されます。

入力、出力、アクション

各例の入力には、次の構造があります。

最後のtアクション、それぞれ2ホットベクトルとして。（2つ、モデルは2つのボタンを選択できるため、1つの矢印ボタンと1つのA/b/x/yの1つです。）
最後のTスクリーンショットは、それぞれがサイズ32x32（グレースケール、わずかにトリミングされている）にダウンスケールしました。
サイズ64x64（グレースケール、わずかにトリミング）の最後のスクリーンショット。

Tは現在4に設定されています（これには、シーケンスの最後の状態が含まれていることに注意してください）。画面は5番目のフレームごとにキャプチャされます。各例の出力は、選択したアクションのアクション報酬値です（直接報酬 +次の状態の割引Q値を受け取ります）。モデルは、状態ごとに2つのアクションを選択できます。1つの矢印ボタン（上、下、右、左）と他のコントロールボタン（A、B、X、Y）の1つです。これは、エージェントが一度に1つのボタンしか選択できなかったAtari-Modelとは異なります。（この変更がなければ、エージェントは理論的には多くのジャンプを行うことができません。これにより、Aボタンを押して右に移動するように強制します。）報酬関数は、ほぼ0、正確に2つの2つであるように構築されているため各例の出力値はゼロではないと予想されます。

報酬機能

エージェントは次の報酬を受け取ります。

X -Difference Reward： +0.5エージェントが右に移動した場合、右に速く移動した場合は+1.0 （最後のゲーム状態と比較して8ピクセル以上）、左に移動した場合は-1.0 、場合は-1.5左に速く移動しました（-8ピクセル以上）。
レベルが終了： +2.0レベルフィニッシュアニメーションが再生されている間。
死： -3.0死のアニメーションが再生されている間。

gamma （予想/間接報酬の割引）は0.9に設定されています。

スコアのみでモデルをトレーニングするのは（Atari Paperのように）増加する可能性が高いため、敵は画面の外側を動かすと敵が再び覆われているため、エージェントはスコアを増やすたびに何度も殺すことができます。

エラー関数

選択的MSEは、エージェントのトレーニングに使用されます。つまり、各例について、勾配はMSEのように計算されます。ただし、すべてのアクション値の勾配は、ターゲット報酬が0の場合は0に設定されます。これは、選択したボタンの1組（矢印ボタン、その他のボタン）に対する受信された報酬のみが含まれているためです。他のアクションのペアは可能だったでしょうが、エージェントはそれらを選択しなかったため、それらに対する報酬は不明です。彼らの報酬値（例ごと）は0に設定されていますが、それらが本当に0だったからではなく、代わりにエージェントが選択した場合にどのような報酬が受け取ったかわからないためです。したがって、それらのバックプロパゲート勾配（つまり、エージェントが0に不等に値を予測する場合）は合理的ではありません。

この実装は、選択されたボタンの受信された報酬が（ここで）正確に0であるため（ここでは）、0に不平等であることに基づいて、選択されたボタンと選択されていないボタン（ターゲットベクトル内）を区別する余裕があります（ここでは）報酬関数）。他の実装は、このステップをより注意深くする必要があるかもしれません。

ポリシー

このポリシーは、Epsilon = 0.8で始まり、400K番目の選択したアクションで0.1にアニールするEpsilon-Greedyのものです。ポリシーに従ってランダムアクションを選択する必要がある場合は、エージェントがコイン（つまり50:50のチャンス）を投げ、2つの（矢印、その他のボタン）アクションのいずれかをランダム化するか、両方をランダム化します。

モデルアーキテクチャ

モデルは3つのブランチで構成されています。

アクション履歴：以前に選択されたアクションをリストします。ネットワークが地面のAボタンをリリースすることがあることを知ることができるように追加されました（ノンストップを押したままにすると、マリオがジャンプしないようにします）。また、ネットワークが長い/高ジャンプのためにプレスを保持することを学ぶことができるように追加されました。
- このブランチは、1つの線形隠されたレイヤーを使用します。
スクリーンショット履歴：州チェーンのスクリーンショット（最後の状態を含む）をリストします。すべてのスクリーンショットは、32x32（グレースケール）にダウンスケールされています。このブランチは、ネットワークが動きを見つけることを目的としています。
- このブランチは、いくつかのストライブされた畳み込み層を使用しています。
- ここでは、いくつかのRNNアーキテクチャが優れている可能性があります。
最後のスクリーンショット：このブランチは、64x64（グレイスケール）の最後の状態のスクリーンショットを受け取ります。これは、現在の状態に基づいて、ネットワークに詳細な決定を下すことを目的としています。
- 画像全体に畳み込みを適用するサブブランチが1つあります。
- その領域を抽出するために空間変圧器を使用して、関心のある領域に畳み込みを適用するサブブランチが1つあります。

ブランチの端では、出力ニューロンに到達する前に、すべてが隠れた層を通って供給され、1つのベクトルにマージされます。これらの出力ニューロンは、押されたボタンごとに予想される報酬を予測します。

ネットワークの概要：

Q architecture

空間変圧器には、以下に示すローカリゼーションネットワークが必要です。

Localization net architecture

両方のネットワークには、全体で約660万パラメーターがあります。

制限

エージェントは、最初のレベルでのみトレーニングされます（最初のオーバーワールドの最初の右）。他のレベルは、エージェントがほとんど対処できないさまざまな困難から大きく苦しんでいます。これらのいくつかは次のとおりです。

ジャンプパズル。エージェントは通常、右にジャンプして死に直面します。
巨大な大砲のボール。それらを通り過ぎるには、それらに飛び乗るか、彼らの下にアヒル（ビッグマリオ）または彼らの下を歩く必要があります（小さなマリオ）。それらの上にジャンプすることは、人間の初心者の選手にとってもかなり難しいです。エプシロングレディのポリシーのために、エージェントにとってダッキングやウォーキングは非常に困難であり、マリオをランダムにジャンプしてすぐに死にます。
高い壁/チューブ。エージェントは、それらを乗り越えるために押されたままにしなければなりません。繰り返しになりますが、学ぶのが難しく、エプシロン・グレディに反して実行されます。
水平チューブ。これらは時々エリアの終わりにあり、あなたは次のエリアに到達するためにそれらに足を踏み入れることになっています。エージェントは代わりにジャンプする傾向があり（ジャンプするのが大好きなため）、右に歩き続けて壁にぶつかります。

最初のレベルはこれらの困難のどれもほとんどないため、DQNに役立ちます。そのため、ここで使用されています。あらゆるレベルでトレーニングしてから別のレベルでテストすることもかなり困難です。各レベルは、新しい敵やまったく異なる敵や新しいメカニック（登山、新しいアイテム、死に絞るオブジェクトなど）などの新しいものを導入しているようです。

使用法

基本要件

ubuntu。
かなりの時間。これは簡単なインストールではありません。
ネットワークとリプレイメモリ用の約2GBのディスクスペース。
4以上のメモリを備えたNVIDIA GPU。
cuda。バージョン7以降は行う必要があります。
cudnn。バージョン4以降は行う必要があります。

手順をインストールします

LUA 5.1がインストールされていることを確認してください。トーチの5.2に問題がありました。
GCC 4.9以降がインストールされていることを確認してください。エミュレータはGCC <4.9で喜んでコンパイルしますが、実際に使用するとエラーを投げることもあります。
トーチをインストールします。
- Torch.Chからの手順に従ってください
- 次のパッケージがインストールされていることを確認してください（ luarocks install packageName ）： nn 、 cudnn 、 paths 、 image 、 display 。ディスプレイは通常、トーチの一部ではありません。
トーチ用の空間変圧器モジュールをインストールします。
- STNBHDWリポジトリをいくつかのディレクトリにクローンする： git clone https://github.com/qassemoquab/stnbhwd.git
- そのディレクトリに切り替えます： cd stnbhwd
- モジュールをコンパイルします： luarocks make stnbhwd-scm-1.rockspec
sqlite3をインストールします
- sudo apt-get install sqlite3 libsqlite3-dev
- luarocks install lsqlite3
エミュレータをコンパイルします：
- LSNES RR2 Beta23のソースコードをダウンロードします。バージョンrr1ではありません！ （LSNE以外のエミュレータは、このリポジトリのコードを使用しない可能性が高いことに注意してください。）
- エミュレータソースコードを抽出し、作成したディレクトリを開きます。
- Open source/src/libray/lua.cppとnamespace { ：
```
 #ifndef LUA_OK
#define LUA_OK 0
#endif

#ifdef LUA_ERRGCMM
	REGISTER_LONG_CONSTANT("LUA_ERRGCMM", LUA_ERRGCMM, CONST_PERSISTENT | CONST_CS);
#endif
```
  これにより、エミュレータはLUA 5.1で実行されます。 LSNES RR2の新しいバージョン（Beta23よりも）はこれを必要としないかもしれません。
- オープンsource/include/core/controller.hppおよび関数を変更するdo_button_actionプライベートからパブリックに変更します。 Line void do_button_action(const std::string& name, short newstate, int mode); private:ブロックしてpublic:ブロック。
- オープンsource/src/lua/input.cppおよびlua::functions LUA_input_fns(... （ファイルの最後で）挿入：
```
	int do_button_action(lua::state& L, lua::parameters& P)
	{
		auto& core = CORE();

		std::string name;
		short newstate;
		int mode;

		P(name, newstate, mode);
		core.buttons->do_button_action(name, newstate, mode);
		return 1;
	}
```
  この方法は、カスタムLUAスクリプトから実際にボタンを押すために必要でした。 core.lua2->input_controllerdata設定されないため、エミュレータのデフォルトのすべての機能は機能しません。
- 再びsource/src/lua/input.cppで、block lua::functions LUA_input_fns(... 、 do_button_actionを追加します。それを行うには、ラインを変更します。 {"controller_info", controller_info}, {"controller_info", controller_info}, {"do_button_action", do_button_action},
- source/に戻ります。
- makeでエミュレータをコンパイルします。
  - このステップ中に問題に遭遇する可能性があり、解決するには多くのグーグルが必要になる可能性があります。ここでは良い方法はありません。
  - Portaudioで問題が発生した場合は、ファイルoptions.buildでそれを無効にします。
  - libwxgtkのようなもので問題が発生した場合は、バージョン2.8-devではなくパッケージlibwxgtk3.0-devをインストールしてください。
- source/ exute sudo cp lsnes /usr/bin/ && sudo chown root:root /usr/bin/lsnesから。その後、コンソールウィンドウでlsnes入力するだけでLSNESを開始できます。
次に、ラムディスクを作成します。これは、ゲームからスクリーンショットを保存するために使用されます（ピクセル値を取得するため）。次のことを行います。
- sudo mkdir /media/ramdisk
- sudo chmod 777 /media/ramdisk
- sudo mount -t tmpfs -o size=128M none /media/ramdisk && mkdir /media/ramdisk/mario-ai-screenshots
- 注：別のパスを選択できます。その後、 config.luaでSCREENSHOT_FILEPATH変更する必要があります。
- 注：ラムディスクを使用する必要はありませんが、ハードドライブは、おそらく保存されている多くのスクリーンショットによる絶え間ない摩耗が好きではないでしょう。

トレーニング

git clone https://github.com/aleju/mario-ai.gitを介してこのリポジトリをクローンします。
作成されたディレクトリにcd 。
スーパーマリオワールド（米国）ROMをダウンロードしてください。
端末ウィンドウでlsnesを使用して、LSNES（リポジトリディレクトリから）を開始します。
エミュレータで、 Configure -> Settings -> Advancedに移動し、LUAメモリ制限を1024MBに設定します。（一度だけ行う必要があります。）
コントローラーボタンを構成します（ Configure -> Settings -> Controller ）。 Overworldがポップアップするまでプレイします。そこで、右に移動して、そのレベルを開始します。そのレベルを少し再生し、エミュレータのFile -> Save -> Stateサブディレクトリstates/trainに州を介して、ほんの一握りの状態を保存します。名前は問題ではありませんが、 .lsmvで終了する必要があります。（州をレベル全体に広めるようにしてください。）
コマンドウィンドウを開き、 th -ldisplay.startを使用してディスプレイサーバーを起動します。それがうまくいかない場合は、ディスプレイをまだインストールしていない場合は、 luarocks install displayを使用してください。
ブラウザでhttp://localhost:8000/を開くことにより、ディスプレイサーバーの出力を開きます。
次に、 Tools -> Run Lua script... 、 train.luaを選択します。
予想されるトレーニング時間：たぶん10時間、優れたハードウェアでは少なくなります。（約0.5mのアクション。）
Tools -> Reset Lua VM 。
トレーニングをゼロから再起動したい場合（たとえば、2回目の実行の場合）、 learned/でファイルを削除する必要があります。リプレイメモリ（ memory.sqlite ）を保持し、新しいネットワークを訓練できることに注意してください。