AIベースのボットを使用したチェッカー(ドラフト)戦略ボードゲームの実装
このプロジェクトは、ニューラルネットワークがチェッカーのゲームをプレイすることを学ぶ能力を紹介することを目的としています。
訓練されたネットワークは、検索アルゴリズム-minimaxを使用してアルファベータプルーニングを導くために使用されます
ゲームで最も有望な動きを選択します。
ニューラルネットワークはボード状態を評価するために使用され、ボード状態を入力として-1〜1の間の出力値として使用します
(-1->ホワイトが勝つ値、1->黒が勝つ値)。 Alphazeroはこれを「バリューネットワーク」として導入しました。
現在、ニューラルネットワークは、6つの隠れレイヤーを備えたMLP(多層パーセプトロン)モデルです。
- >入力層の32ニューロン| 64、64、128、128、256、256隠されたレイヤーの場合は、出力層用の1つのニューロン
私はMLP ATMよりもはるかに優れているように見える一時的な違い学習方法(TDリーフ)に取り組んでいます
(モデルを完全にトレーニングするには時間が必要です)。
主なアイデアは、監視された学習を使用して、いくつかのモデルをトレーニングし、そのモデルを自己プレイで改善することです。
- > http://www.fierz.ch/download.php
約20000ゲームの結果は、ほとんどが描画されています(約14000) - ニューラルネットにはあまり良くありませんが、1つのATMを見つけることはできません。
1. python main.py # runs web server on localhost:5000
2. Web browse to localhost:5000
At this phase game does not support (interface) validation and multiple jumps so dont use it right now :)
Console version is fully featured (it supports validation and multiple jumps)