使用基于AI的机器人的Checkers(草稿)策略棋盘游戏
该项目旨在展示神经网络学会玩跳棋游戏的能力。
训练有素的网络用于指导搜索算法-Minimax,并用alpha -beta修剪
选择游戏中最有希望的举动。
神经网络用于评估董事会状态,它将董事会状态作为输入,输出值在-1和1之间
(值接近-1->白色获胜,值接近1->黑色获胜)。 Alphazero将其引入了“价值网络”。
当前,神经网络只是具有6个隐藏层的MLP(多层perceptron)模型:
- >输入层的32个神经元|隐藏层的64、64、128、128、256、256,输出层的1个神经元
我正在研究时间差学习方法(TD LEAF),看起来比MLP ATM好。
(需要一些时间才能充分培训模型)。
主要思想是使用监督的学习(预先)培训一些模型,然后通过自我播放,DeepMind对Alphazero的作用来改进该模型。
- > http://www.fierz.ch/download.php
大约有20000场比赛,结果大多是绘制的(大约14000) - 对于神经网来说,结果不太好,但我找不到更好的ATM。
1. python main.py # runs web server on localhost:5000
2. Web browse to localhost:5000
At this phase game does not support (interface) validation and multiple jumps so dont use it right now :)
Console version is fully featured (it supports validation and multiple jumps)