Unduh rlcard - Unduh Kode Sumber rlcard

rlcard

Kode sumber lainnya

RLCard 1.0.7

Unduh

RLCARD: Toolkit untuk Pembelajaran Penguatan di Game Kartu

中文文档

RLCard adalah toolkit untuk Penguatan Penguatan (RL) dalam permainan kartu. Ini mendukung beberapa lingkungan kartu dengan antarmuka yang mudah digunakan untuk menerapkan berbagai algoritma pembelajaran dan pencarian penguatan. Tujuan RLCard adalah untuk menjembatani pembelajaran penguatan dan permainan informasi yang tidak sempurna. RLCard dikembangkan oleh data lab di Rice dan Texas A&M University, dan kontributor komunitas.

Situs web resmi: https://www.rlcard.org
Tutorial di Jupyter Notebook: https://github.com/datamllab/rlcard-tutorial
Kertas: https://arxiv.org/abs/1910.04376
Video: YouTube
GUI: Rlcard-Showdown
Demo Dou Dizhu: Demo
Sumber Daya: Awesome-Game-Ai
Proyek Terkait: Proyek Douzero
Zhihu: https://zhuanlan.zhihu.com/p/526723604
Sumber Daya Lain -Lain:
- Lihatlah model Time Series (LTSM) yang bersumber dari open-source!
- Pernahkah Anda mendengar tentang AI yang berpusat pada data? Silakan periksa survei AI yang berpusat pada data kami dan sumber daya AI yang luar biasa data!

Masyarakat:

Slack : Diskusikan di saluran Slack #RlCard-Project kami.
QQ Group : Bergabunglah dengan grup QQ kami untuk dibahas. Kata sandi: rlcardqqgroup
- Kelompok 1: 665647450
- Grup 2: 117349516

Berita:

Kami telah memperbarui tutorial di Jupyter Notebook untuk membantu Anda berjalan melalui RLCard! Silakan periksa tutorial RLCARD.
Semua algoritma dapat menyambut Pettingzoo sekarang. Silakan periksa di sini. Terima kasih kontribtuasi dari yifei cheng.
Harap ikuti Douzero, Dou Dizhu AI yang kuat dan kertas ICML 2021. Demo online tersedia di sini. Algoritma ini juga terintegrasi dalam kartu RLC. Lihat Pelatihan DMC di Dou Dizhu.
Paket kami digunakan di Pettingzoo. Silakan periksa!
Kami telah merilis RLCard-Showdown, demo GUI untuk RLCard. Silakan periksa di sini!
Tutorial Jupyter Notebook Tersedia! Kami menambahkan beberapa contoh dalam R untuk memanggil antarmuka Python dari kartu RLC dengan reticulate. Lihat di sini
Terima kasih atas kontribusi @clarit7 karena telah mendukung jumlah pemain yang berbeda dalam blackjack. Kami meminta kontribusi untuk secara bertahap membuat game lebih dapat dikonfigurasi. Lihat di sini untuk detail lebih lanjut.
Terima kasih atas kontribusi @clarit7 untuk blackjack dan batas antarmuka manusia Hold'em.
Sekarang RLCard mendukung lingkungan penyemaian lokal dan multiproses. Terima kasih atas skrip pengujian yang disediakan oleh @weepingwillowben.
Antarmuka manusia dari nolimit holdem tersedia. Ruang aksi nolimit holdem telah diabstraksikan. Terima kasih atas kontribusi @Adrianp-.
Game baru Gin Rummy dan GUI manusia tersedia. Terima kasih atas kontribusi @billh0420.
Implementasi PyTorch tersedia. Terima kasih atas kontribusi @Mjudell.

Kontributor

Permainan berikut terutama dikembangkan dan dikelola oleh kontributor komunitas. Terima kasih!

Gin Rummy: @billh0420
Jembatan: @billh0420

Terima kasih semua kontributor!

Daochenzha hsywhu CAOYUANPU Billh0420 Ruzhwei Adrianpgob Zhigal aipee19 Clarit7 lhenry15 Ismael-Elatifi Mjudell jkterry1 Kaanozdogru JUNYUGUO
Xixo99 Rodrigodelazcano Michael1015198808 MIA1996 kailks Claude9493 Sonsang Rishabhvarshney14 Aetheryang rxng8 Nondecidibile benblack769 Zhengsx Andrewnc

Mengutip pekerjaan ini

Jika Anda menemukan repo ini berguna, Anda dapat mengutip:

Zha, Daochen, dkk. "RLCard: Platform untuk Penguatan Pembelajaran dalam Game Kartu." Ijcai. 2020.

 @inproceedings { zha2020rlcard ,
  title = { RLCard: A Platform for Reinforcement Learning in Card Games } ,
  author = { Zha, Daochen and Lai, Kwei-Herng and Huang, Songyi and Cao, Yuanpu and Reddy, Keerthana and Vargas, Juan and Nguyen, Alex and Wei, Ruzhe and Guo, Junyu and Hu, Xia } ,
  booktitle = { IJCAI } ,
  year = { 2020 }
}

Instalasi

Pastikan Anda memiliki Python 3.6+ dan Pip terpasang. Kami sarankan menginstal rlcard versi stabil dengan pip :

 pip3 install rlcard

Instalasi default hanya akan mencakup lingkungan kartu. Untuk menggunakan implementasi Pytorch dari algoritma pelatihan, jalankan

 pip3 install rlcard[torch]

Jika Anda berada di Cina dan perintah di atas terlalu lambat, Anda dapat menggunakan cermin yang disediakan oleh Tsinghua University:

 pip3 install rlcard -i https://pypi.tuna.tsinghua.edu.cn/simple

Atau, Anda dapat mengkloning versi terbaru dengan (jika Anda berada di China dan GitHub lambat, Anda dapat menggunakan cermin di gitee):

 git clone https://github.com/datamllab/rlcard.git

atau hanya mengkloning satu cabang untuk membuatnya lebih cepat:

 git clone -b master --single-branch --depth=1 https://github.com/datamllab/rlcard.git

Lalu instal dengan

 cd rlcard
pip3 install -e .
pip3 install -e .[torch]

Kami juga menyediakan metode instalasi Conda :

 conda install -c toubun rlcard

Instalasi Conda hanya menyediakan lingkungan kartu, Anda perlu menginstal pytorch secara manual pada permintaan Anda.

Contoh

Contoh singkat adalah seperti di bawah ini.

 import rlcard
from rlcard . agents import RandomAgent

env = rlcard . make ( 'blackjack' )
env . set_agents ([ RandomAgent ( num_actions = env . num_actions )])

print ( env . num_actions ) # 2
print ( env . num_players ) # 1
print ( env . state_shape ) # [[2]]
print ( env . action_shape ) # [None]

trajectories , payoffs = env . run ()

RLCARD dapat dihubungkan secara fleksibel ke berbagai algoritma. Lihat contoh -contoh berikut:

Bermain dengan agen acak
Pembelajaran Deep-Q di Blackjack
Pelatihan CFR (Pengambilan Sampel Kesempatan) di Leduc Hold'em
Bersenang -senang dengan model leduc pretrained
Pelatihan DMC di Dou Dizhu
Agen evaluasi
Agen pelatihan di Pettingzoo

Demo

Jalankan examples/human/leduc_holdem_human.py untuk bermain dengan model Leduc Hold'em pra-terlatih. Leduc Hold'em adalah versi sederhana dari Texas Hold'em. Aturan dapat ditemukan di sini.

 >> Leduc Hold'em pre-trained model

>> Start a new game!
>> Agent 1 chooses raise

=============== Community Card ===============
┌─────────┐
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
└─────────┘
===============   Your Hand    ===============
┌─────────┐
│J        │
│         │
│         │
│    ♥    │
│         │
│         │
│        J│
└─────────┘
===============     Chips      ===============
Yours:   +
Agent 1: +++
=========== Actions You Can Choose ===========
0: call, 1: raise, 2: fold

>> You choose action (integer):

Kami juga menyediakan GUI untuk debugging yang mudah. Silakan periksa di sini. Beberapa demo:

Replay Doudizhu LEDUC-Replay

Lingkungan yang tersedia

Kami memberikan estimasi kompleksitas untuk permainan pada beberapa aspek. Nomor infoset: jumlah set informasi; Ukuran infoset: jumlah rata -rata negara bagian dalam satu set informasi; Ukuran aksi: Ukuran ruang aksi. Nama: Nama yang harus diteruskan ke rlcard.make untuk menciptakan lingkungan game. Kami juga menyediakan tautan ke dokumentasi dan contoh acak.

Permainan	Nomor infoset	Ukuran infoset	Ukuran aksi	Nama	Penggunaan
Blackjack (Wiki, Baike)	10^3	10^1	10^0	selikuran	Doc, contoh
Leduc hold'em (kertas)	10^2	10^2	10^0	leduc-holdem	Doc, contoh
Batasi Texas Hold'em (Wiki, Baike)	10^14	10^3	10^0	batas-holdem	Doc, contoh
Dou Dizhu (Wiki, Baike)	10^53 ~ 10^83	10^23	10^4	Doudizhu	Doc, contoh
Mahjong (Wiki, Baike)	10^121	10^48	10^2	mahjong	Doc, contoh
No-limit Texas Hold'em (Wiki, Baike)	10^162	10^3	10^4	no-limit-holdem	Doc, contoh
Uno (Wiki, Baike)	10^163	10^10	10^1	uno	Doc, contoh
Gin Rummy (Wiki, Baike)	10^52	-	-	gin-rummy	Doc, contoh
Bridge (Wiki, Baike)		-	-	menjembatani	Doc, contoh

Algoritma yang didukung

Algoritma	contoh	referensi
Deep Monte-Carlo (DMC)	Contoh/run_dmc.py	[kertas]
Dear-learning Deep (DQN)	Contoh/run_rl.py	[kertas]
Neural Fictiptips Self-Play (NFSP)	Contoh/run_rl.py	[kertas]
Minimalisasi penyesalan kontrafaktual (CFR)	Contoh/run_cfr.py	[kertas]

Model pra-terlatih dan berbasis aturan

Kami menyediakan kebun binatang model untuk berfungsi sebagai garis dasar.

Model	Penjelasan
leduc-holdem-cfr	Model CFR pra-terlatih (Chance Sampling) pada leduc hold'em
leduc-holdem-aturan-V1	Model Berbasis Aturan untuk Leduc Hold'em, V1
leduc-holdem-aturan-V2	Model Berbasis Aturan untuk Leduc Hold'em, V2
uno-aturan-v1	Model Berbasis Aturan untuk UNO, V1
batas-holdem-aturan-V1	Model Berbasis Aturan untuk Batas Texas Hold'em, V1
doudizhu-aturan-v1	Model berbasis aturan untuk Dou Dizhu, V1
Gin-Rummy-Novice-aturan	Model Aturan Pemula Gin Rummy

API Cheat Sheet

Cara menciptakan lingkungan

Anda dapat menggunakan antarmuka berikut untuk membuat lingkungan. Anda dapat secara opsional menentukan beberapa konfigurasi dengan kamus.

env = rlcard.make (env_id, config = {}) : buat lingkungan. env_id adalah serangkaian lingkungan; config adalah kamus yang menentukan beberapa konfigurasi lingkungan, yaitu sebagai berikut.
- seed : Default None . Tetapkan biji acak lokal lingkungan untuk mereproduksi hasilnya.
- allow_step_back : False default. True jika memungkinkan fungsi step_back untuk melintasi ke belakang di pohon.
- Konfigurasi Khusus Game: Bidang -bidang ini dimulai dengan game_ . Saat ini, kami hanya mendukung game_num_players di Blackjack ,.

Setelah Environemnt dibuat, kami dapat mengakses beberapa informasi permainan.

Env.num_actions : Jumlah tindakan.
Env.Num_Players : Jumlah pemain.
Env.State_Shape : Bentuk ruang negara pengamatan.
Env.action_shape : Bentuk fitur aksi (tindakan Dou Dizhu dapat dikodekan sebagai fitur)

Apa keadaan di kartu rlcard

Negara adalah kamus Python. Ini terdiri dari state['obs'] , tindakan hukum state['legal_actions'] , state['raw_obs'] dan tindakan hukum mentah state['raw_legal_actions'] .

Antarmuka dasar

Antarmuka berikut memberikan penggunaan dasar. Mudah digunakan tetapi memiliki asumsi pada agen. Agen harus mengikuti templat agen.

Env.set_agents (agen) : agents adalah daftar objek Agent . Panjang daftar harus sama dengan jumlah pemain dalam permainan.
env.run (is_training = false) : Jalankan permainan lengkap dan lintasan kembali dan imbalan. Fungsi dapat digunakan setelah set_agents dipanggil. Jika is_training True , itu akan menggunakan fungsi step dalam agen untuk memainkan game. Jika is_training False , eval_step akan dipanggil sebagai gantinya.

Antarmuka lanjutan

Untuk penggunaan lanjutan, antarmuka berikut memungkinkan operasi fleksibel pada pohon game. Antarmuka ini tidak membuat asumsi pada agen.

Env.reset () : Inisialisasi game. Kembalikan negara bagian dan ID pemain pertama.
Env.Step (Action, Raw_Action = FALSE) : Ambil satu langkah di lingkungan. action dapat berupa tindakan mentah atau bilangan bulat; raw_action harus True jika tindakannya adalah tindakan mentah (string).
Env.Step_Back () : Tersedia hanya jika allow_step_back True . Ambil satu langkah mundur. Ini dapat digunakan untuk algoritma yang beroperasi di pohon game, seperti CFR (Chance Sampling).
env.is_over () : Return True jika game saat ini sudah berakhir. Otherwise, kembalikan False .
env.get_player_id () : Mengembalikan ID pemain dari pemain saat ini.
env.get_state (player_id) : Kembalikan status yang sesuai dengan player_id .
env.get_payoffs () : Di akhir permainan, kembalikan daftar imbalan untuk semua pemain.
env.get_perfect_information () : (Saat ini hanya mendukung beberapa game) mendapatkan informasi yang sempurna pada keadaan saat ini.

Struktur Perpustakaan

Tujuan modul utama terdaftar di bawah ini:

/Contoh: Contoh menggunakan kartu rlc.
/Dokumen: Dokumentasi RLCard.
/Tes: Menguji skrip untuk kartu RLC.
/RLCARD/AGEN: Algoritma pembelajaran penguatan dan agen manusia.
/rlcard/envs: pembungkus lingkungan (representasi negara, pengkodean tindakan dll.)
/RLCARD/GAME: Berbagai mesin game.
/RLCard/Model: Model Zoo termasuk model pra-terlatih dan model aturan.

Lebih banyak dokumen

Untuk dokumentasi lebih lanjut, silakan merujuk ke dokumen untuk perkenalan umum. Dokumen API tersedia di situs web kami.

Berkontribusi

Kontribusi untuk proyek ini sangat dihargai! Harap buat masalah untuk umpan balik/bug. Jika Anda ingin berkontribusi kode, silakan merujuk ke Panduan Kontribusi. Jika Anda memiliki pertanyaan, silakan hubungi Daochen Zha dengan [email protected].

Ucapan Terima Kasih

Kami ingin mengucapkan terima kasih kepada JJ World Network Technology Co., Ltd atas dukungan yang murah hati dan semua kontribusi dari kontributor masyarakat.

Memperluas

Informasi Tambahan

Versi RLCard 1.0.7
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-26
ukuran 404.68KB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
Sunamu

Kode sumber lainnya

Release 2.2.0
MySchedule.py

Kode sumber lainnya

Updates to the fetching of week codes
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua