6 Nimmt! adalah permainan kartu pemenang penghargaan untuk dua hingga sepuluh pemain dari tahun 1994. Mengutip Wikipedia:
Gim ini memiliki 104 kartu, masing -masing bertuliskan angka dan satu hingga tujuh simbol kepala banteng yang mewakili poin penalti. Putaran sepuluh putaran dimainkan di mana semua pemain menempatkan satu kartu pilihan mereka ke meja. Kartu yang ditempatkan diatur pada empat baris sesuai dengan aturan tetap. Jika ditempatkan di barisan yang sudah memiliki lima kartu maka pemain menerima lima kartu itu, yang dianggap sebagai poin penalti yang total di akhir putaran.
6 Nimmt! adalah permainan kompetitif dari informasi yang tidak lengkap dan sejumlah besar stokastik. Bermain dengan baik membutuhkan perencanaan yang adil. Permainan permainan simultan cocok untuk permainan pikiran dan menggertak, sementara beberapa strategi jangka panjang diperlukan untuk menghindari berakhir di posisi akhir yang sulit.
Kami menerapkan versi 6 NIMMT yang sedikit disederhanakan! sebagai lingkungan gym openai. Tidak seperti di game asli, saat memainkan kartu yang lebih rendah dari kartu terakhir di semua tumpukan, pemain tidak dapat dengan bebas memilih tumpukan mana yang harus diganti, tetapi sebaliknya akan selalu mengambil tumpukan dengan jumlah poin penalti terkecil.
Sejauh ini kami telah menerapkan agen berikut:
Sebagai tes pertama, kami menjalankan turnamen bermain mandiri yang sederhana. Dimulai dengan lima agen yang tidak terlatih, kami memainkan total 4000 pertandingan. Untuk setiap game kami memilih dua, tiga, atau empat agen secara acak untuk bermain (dan belajar). Setiap 400 game kami mengkloning agen berkinerja terbaik dan mengusir beberapa yang berkinerja lebih buruk. Pada akhirnya kami hanya menyimpan contoh terbaik dari setiap jenis agen.
Hasil dari semua game:
Agen | Game dimainkan | Skor berarti | Menangkan fraksi | Elo |
---|---|---|---|---|
Alpha0.5 | 2246 | -7.79 | 0.42 | 1806 |
MCS | 2314 | -8.06 | 0.40 | 1745 |
TANAMAN ACER | 1408 | -12.28 | 0.18 | 1629 |
D3qn | 1151 | -13.32 | 0.17 | 1577 |
Acak | 1382 | -13.49 | 0.19 | 1556 |
Beginilah kinerja (diukur dalam ELO) dari model yang dikembangkan selama turnamen:
Pencarian pohon Monte-Carlo sangat penting dan mengarah pada pemain yang kuat. Agen RL bebas model, di sisi lain, berjuang untuk bahkan mengungguli garis dasar acak. Karena sifat stokastik dari permainan, probabilitas kemenangan dan perbedaan ELO hampir tidak setrastik yang mereka bisa, katakanlah, untuk catur. Perhatikan bahwa kami belum menyetel salah satu dari banyak hiperparameter.
Setelah fase mandiri ini, agen Alpha0.5 menghadapi Merle, salah satu dari 6 NIMMT terbaik! Pemain dalam kelompok teman kami, untuk 5 pertandingan. Ini adalah skornya:
Permainan | 1 | 2 | 3 | 4 | 5 | Jumlah |
---|---|---|---|---|---|---|
Merle | -10 | -16 | -11 | -3 | -4 | -44 |
Alpha0.5 | -1 | -3 | -14 | -8 | -6 | -32 |
Dengan asumsi Anda telah memasang anaconda, mengkloning repo dengan
git clone [email protected]:johannbrehmer/rl-6nimmt.git
dan menciptakan lingkungan virtual dengan
conda env create -f environment.yml
conda activate rl
Baik mandiri agen dan permainan antara pemain manusia dan agen terlatih ditunjukkan dalam Simple_Tournament.ipynb.
Disatukan oleh Johann Brehmer dan Marcel Gutsche.