การใช้งานเกมกระดานกลยุทธ์ (ร่าง) เกมกระดานกับบอทตาม AI
โครงการนี้มีวัตถุประสงค์เพื่อแสดงความสามารถของเครือข่ายประสาทเพื่อเรียนรู้ที่จะเล่นเกมหมากฮอส
เครือข่ายที่ผ่านการฝึกอบรมใช้เพื่อเป็นแนวทางในอัลกอริทึมการค้นหา - Minimax ด้วยการตัดแต่งอัลฟ่าเบต้า
เพื่อเลือกการเคลื่อนไหวที่มีแนวโน้มมากที่สุดในเกม
เครือข่ายประสาทใช้สำหรับการประเมินสถานะบอร์ดใช้สถานะของบอร์ดเป็นค่าอินพุตและเอาต์พุตระหว่าง -1 และ 1
(ค่าใกล้กับ -1 -> wins สีขาวค่าใกล้กับ 1 -> win สีดำ) Alphazero แนะนำสิ่งนี้เป็น "เครือข่ายค่า"
ปัจจุบัน Neural Network เป็นเพียงรุ่น MLP (Multilayer Perceptron) ที่มี 6 ชั้นที่ซ่อนอยู่:
-> 32 เซลล์ประสาทสำหรับเลเยอร์อินพุต | 64, 64, 128, 128, 256, 256 สำหรับเลเยอร์ที่ซ่อนอยู่และ 1 เซลล์ประสาทสำหรับเลเยอร์เอาท์พุท
ฉันกำลังทำงานเกี่ยวกับวิธีการเรียนรู้ที่แตกต่างทางโลก (TD Leaf) ที่ดูเหมือนดีกว่าแล้ว MLP ATM
(ต้องการเวลาในการฝึกอบรมแบบจำลองอย่างสมบูรณ์)
แนวคิดหลักคือการใช้การเรียนรู้ภายใต้การดูแล (ก่อน) ฝึกอบรมแบบจำลองบางอย่างและเพื่อปรับปรุงโมเดลนั้นด้วยการเล่นด้วยตนเองสิ่งที่ DeepMind ทำกับ Alphazero
-> http://www.fierz.ch/download.php
ประมาณ 2,000 เกมผลลัพธ์ส่วนใหญ่จะวาด (ประมาณ 14000) - ไม่ค่อยดีนักสำหรับอวนประสาท แต่ฉันไม่สามารถหาตู้เอทีเอ็มที่ดีกว่าได้
1. python main.py # runs web server on localhost:5000
2. Web browse to localhost:5000
At this phase game does not support (interface) validation and multiple jumps so dont use it right now :)
Console version is fully featured (it supports validation and multiple jumps)