Внедрение стратегии Checkers (Chrafts) Стратегическая игра с BOT на основе искусственного интеллекта
Этот проект предназначен для демонстрации способности нейронных сетей научиться играть в игру в шашки.
Обученная сеть используется для направления алгоритма поиска - Minimax с обрезкой альфа -бета
Чтобы выбрать самые перспективные ходы в играх.
Нейронная сеть используется для оценки состояния платы, она принимает состояние платы в качестве входного и выходного значения между -1 и 1
(Значения, близкие к -1 -> белые победы, значения, близкие к 1 -> черным победам). Alphazero представил это как «Value Network».
В настоящее время нейронная сеть - это просто модель MLP (Multilayer Perceptron) с 6 скрытыми уровнями:
-> 32 нейроны для входного слоя | 64, 64, 128, 128, 256, 256 для скрытых слоев и 1 нейрона для выходного слоя
Я работаю над методом обучения временной разнице (TD Leaf), который кажется намного лучше, чем MLP ATM
(Нужно некоторое время, чтобы полностью пройти модель).
Основная идея состоит в том, чтобы использовать контролируемое обучение для (до) обучения какой-то модели, а затем улучшить эту модель с помощью самостоятельной работы, что DeepMind сделал с Alphazero.
-> http://www.fierz.ch/download.php
Около 20000 игр, результаты в основном притягиваются (около 14000) - не так хороши для нейронных сетей, но я не могу найти лучшего одного банкомата.
1. python main.py # runs web server on localhost:5000
2. Web browse to localhost:5000
At this phase game does not support (interface) validation and multiple jumps so dont use it right now :)
Console version is fully featured (it supports validation and multiple jumps)