تنفيذ لعبة لوحة الإستراتيجية (مسودات) المدقق مع الروبوت القائم على الذكاء الاصطناعى
يهدف هذا المشروع إلى إظهار قدرة الشبكات العصبية على تعلم لعب لعبة الداما.
يتم استخدام الشبكة المدربة لتوجيه خوارزمية البحث - الحد الأدنى مع تقليم ألفا بيتا
لتحديد التحركات الواعدة في الألعاب.
يتم استخدام الشبكة العصبية لتقييم حالة اللوحة ، وهي تأخذ حالة اللوحة كقيمة إدخال ومخرجات بين -1 و 1
(القيم القريبة من -1 -> فوز بيضاء ، قيم قريبة من 1 -> انتصارات سوداء). قدم Alphazero هذا كـ "شبكة قيمة".
حاليا ، الشبكة العصبية هي مجرد نموذج MLP (MultIllayer Perceptron) مع 6 طبقات مخفية:
-> 32 الخلايا العصبية لطبقة الإدخال | 64 ، 64 ، 128 ، 128 ، 256 ، 256 للطبقات الخفية و 1 خلية عصبية لطبقة الإخراج
أنا أعمل على طريقة تعلم الفرق الزمني (ورقة TD) التي تبدو أفضل ثم MLP ATM
(بحاجة إلى بعض الوقت لتدريب النموذج بالكامل).
الفكرة الرئيسية هي استخدام التعلم الخاضع للإشراف لتدريب بعض النماذج ومن ثم تحسين هذا النموذج مع اللعب الذاتي ، ما فعله DeepMind مع Alphazero.
-> http://www.fierz.ch/download.php
حوالي 20000 لعبة ، والنتائج في الغالب تعادل (حوالي 14000) - ليست كبيرة بالنسبة للشبكات العصبية ولكن لا يمكنني العثور على أجهزة الصراف الآلي واحدة أفضل.
1. python main.py # runs web server on localhost:5000
2. Web browse to localhost:5000
At this phase game does not support (interface) validation and multiple jumps so dont use it right now :)
Console version is fully featured (it supports validation and multiple jumps)