Implementasi Permainan Dewan Strategi Pemeriksa (Draft) dengan bot berbasis AI
Proyek ini dimaksudkan untuk memamerkan kemampuan jaringan saraf untuk belajar memainkan permainan pemeriksa.
Jaringan terlatih digunakan untuk memandu algoritma pencarian - minimax dengan pemangkasan alfa -beta
Untuk memilih gerakan yang paling menjanjikan dalam game.
Jaringan saraf digunakan untuk mengevaluasi status dewan, ia mengambil status dewan sebagai input dan nilai output antara -1 dan 1
(Nilai mendekati -1 -> White menang, nilai mendekati 1 -> win hitam). Alphazero memperkenalkan ini sebagai "jaringan nilai".
Saat ini, Neural Network hanyalah model MLP (Multilayer Perceptron) dengan 6 lapisan tersembunyi:
-> 32 neuron untuk lapisan input | 64, 64, 128, 128, 256, 256 untuk lapisan tersembunyi dan 1 neuron untuk lapisan output
Saya sedang mengerjakan metode pembelajaran perbedaan temporal (daun TD) yang tampaknya jauh lebih baik daripada mlp atm
(Butuh waktu untuk melatih sepenuhnya model).
Gagasan utama adalah menggunakan pembelajaran yang diawasi untuk (pra) melatih beberapa model dan kemudian meningkatkan model itu dengan bermain mandiri, apa yang Deepmind lakukan dengan Alphazero.
-> http://www.fierz.ch/download.php
Sekitar 20000 game, hasilnya sebagian besar ditarik (sekitar 14000) - tidak terlalu bagus untuk jaring saraf tetapi saya tidak dapat menemukan satu ATM yang lebih baik.
1. python main.py # runs web server on localhost:5000
2. Web browse to localhost:5000
At this phase game does not support (interface) validation and multiple jumps so dont use it right now :)
Console version is fully featured (it supports validation and multiple jumps)