使用基於AI的機器人的Checkers(草稿)策略棋盤遊戲
該項目旨在展示神經網絡學會玩跳棋遊戲的能力。
訓練有素的網絡用於指導搜索算法-Minimax,並用alpha -beta修剪
選擇遊戲中最有希望的舉動。
神經網絡用於評估董事會狀態,它將董事會狀態作為輸入,輸出值在-1和1之間
(值接近-1->白色獲勝,值接近1->黑色獲勝)。 Alphazero將其引入了“價值網絡”。
當前,神經網絡只是具有6個隱藏層的MLP(多層perceptron)模型:
- >輸入層的32個神經元|隱藏層的64、64、128、128、256、256,輸出層的1個神經元
我正在研究時間差學習方法(TD LEAF),看起來比MLP ATM好。
(需要一些時間才能充分培訓模型)。
主要思想是使用監督的學習(預先)培訓一些模型,然後通過自我播放,DeepMind對Alphazero的作用來改進該模型。
- > http://www.fierz.ch/download.php
大約有20000場比賽,結果大多是繪製的(大約14000) - 對於神經網來說,結果不太好,但我找不到更好的ATM。
1. python main.py # runs web server on localhost:5000
2. Web browse to localhost:5000
At this phase game does not support (interface) validation and multiple jumps so dont use it right now :)
Console version is fully featured (it supports validation and multiple jumps)