ดาวน์โหลด rlcard - ดาวน์โหลดซอร์สโค้ด rlcard

rlcard

ซอร์สโค้ดอื่น ๆ

RLCard 1.0.7

ดาวน์โหลด

RLCARD: ชุดเครื่องมือสำหรับการเรียนรู้การเสริมแรงในเกมไพ่

中文文档

RLCARD เป็นชุดเครื่องมือสำหรับการเรียนรู้การเสริมแรง (RL) ในเกมไพ่ รองรับสภาพแวดล้อมการ์ดหลายเครื่องด้วยอินเทอร์เฟซที่ใช้งานง่ายสำหรับการใช้อัลกอริทึมการเสริมแรงและการค้นหาที่หลากหลาย เป้าหมายของ RLCARD คือการเชื่อมโยงการเรียนรู้การเสริมแรงและเกมข้อมูลที่ไม่สมบูรณ์ RLCARD ได้รับการพัฒนาโดย Data Lab ที่ Rice และ Texas A&M University และผู้สนับสนุนชุมชน

เว็บไซต์อย่างเป็นทางการ: https://www.rlcard.org
การสอนในสมุดบันทึก Jupyter: https://github.com/datamllab/rlcard-tutorial
กระดาษ: https://arxiv.org/abs/1910.04376
วิดีโอ: YouTube
GUI: RLCARD-ShowDown
Dou Dizhu Demo: Demo
แหล่งข้อมูล: Game-Game-AI
โครงการที่เกี่ยวข้อง: โครงการ Douzero
Zhihu: https://zhuanlan.zhihu.com/p/526723604
ทรัพยากรเบ็ดเตล็ด:
- ตรวจสอบรุ่น Liging Time Series (LTSM) ที่เปิดกว้างของเรา!
- คุณเคยได้ยินเกี่ยวกับข้อมูล AI ที่เน้นข้อมูลเป็นศูนย์กลางหรือไม่? โปรดตรวจสอบการสำรวจข้อมูล AI ที่เน้นข้อมูลเป็นศูนย์กลางของเราและแหล่งข้อมูล AI ที่เน้นข้อมูลเป็นศูนย์กลาง!

ชุมชน:

Slack : พูดคุยในช่อง Slack #RLCARD ของเรา
กลุ่ม QQ : เข้าร่วมกลุ่ม QQ ของเราเพื่อหารือ รหัสผ่าน: RLCARDQQGROUP
- กลุ่ม 1: 665647450
- กลุ่มที่ 2: 117349516

ข่าว:

เราได้อัปเดตบทเรียนในสมุดบันทึก Jupyter เพื่อช่วยให้คุณเดินผ่าน RLCARD! โปรดตรวจสอบการสอน RLCARD
อัลกอริทึมทั้งหมดสามารถสนับสนุน Pettingzoo ได้ในขณะนี้ โปรดตรวจสอบที่นี่ ขอบคุณ contribtuion จาก Yifei Cheng
โปรดติดตาม Douzero, Dizhu AI ที่แข็งแกร่งและกระดาษ ICML 2021 มีการสาธิตออนไลน์ที่นี่ อัลกอริทึมยังรวมอยู่ใน RLCARD ดูการฝึกอบรม DMC เกี่ยวกับ Dou Dizhu
แพ็คเกจของเราใช้ใน Pettingzoo โปรดตรวจสอบ!
เราได้เปิดตัว RLCARD-ShowDown, GUI DEMO สำหรับ RLCARD โปรดตรวจสอบที่นี่!
มีการสอน Jupyter Notebook! เราเพิ่มตัวอย่างบางส่วนใน R เพื่อเรียกอินเทอร์เฟซ Python ของ RLCARD ด้วย reticulate ดูที่นี่
ขอบคุณสำหรับการมีส่วนร่วมของ @Clarit7 สำหรับการสนับสนุนจำนวนผู้เล่นที่แตกต่างกันในแบล็คแจ็ค เราเรียกร้องให้มีการบริจาคเพื่อให้เกมที่กำหนดค่าได้มากขึ้น ดูรายละเอียดเพิ่มเติมที่นี่
ขอบคุณสำหรับการมีส่วนร่วมของ @Clarit7 สำหรับแบล็คแจ็คและ จำกัด อินเทอร์เฟซมนุษย์ Hold'em
ตอนนี้ RLCARD รองรับการเพาะสภาพในท้องถิ่นและการประมวลผลหลายครั้ง ขอบคุณสำหรับการทดสอบสคริปต์ที่จัดทำโดย @weepingwillowben
อินเทอร์เฟซมนุษย์ของ Nolimit Holdem พื้นที่ปฏิบัติการของ Nolimit Holdem ได้รับการสรุป ขอบคุณสำหรับการมีส่วนร่วมของ @adrianp-
เกมใหม่ Gin Rummy และ Human GUI มีอยู่ ขอบคุณสำหรับการบริจาคของ @billh0420
มีการใช้งาน Pytorch ขอบคุณสำหรับการมีส่วนร่วมของ @mjudell

ผู้มีส่วนร่วม

เกมต่อไปนี้ส่วนใหญ่ได้รับการพัฒนาและดูแลโดยผู้สนับสนุนชุมชน ขอบคุณ!

Gin Rummy: @billh0420
บริดจ์: @billh0420

ขอบคุณผู้มีส่วนร่วมทุกคน!

Daochenzha Hsywhu Caoyuanpu Billh0420 รูซ AdrianpGob ชาวพิชิกา Aypee19 Clarit7 Lhenry15 Ismael-Elatifi Mjudell jkterry1 Kaanozdogru junyuguo
xixo99 Rodrigodelazcano Michael1015198808 Mia1996 ไคค์ Claude9493 ลูกซอง Rishabhvarshney14 Aetheryang rxng8 ไม่มีผู้เสียชีวิต benblack769 Zhengsx Andrewnc

อ้างถึงงานนี้

หากคุณพบว่า repo นี้มีประโยชน์คุณอาจอ้างถึง:

Zha, Daochen, et al. "RLCARD: แพลตฟอร์มสำหรับการเรียนรู้การเสริมแรงในเกมไพ่" ijcai 2020.

 @inproceedings { zha2020rlcard ,
  title = { RLCard: A Platform for Reinforcement Learning in Card Games } ,
  author = { Zha, Daochen and Lai, Kwei-Herng and Huang, Songyi and Cao, Yuanpu and Reddy, Keerthana and Vargas, Juan and Nguyen, Alex and Wei, Ruzhe and Guo, Junyu and Hu, Xia } ,
  booktitle = { IJCAI } ,
  year = { 2020 }
}

การติดตั้ง

ตรวจสอบให้แน่ใจว่าคุณติดตั้ง Python 3.6+ และ PIP เราขอแนะนำให้ติดตั้ง rlcard เวอร์ชันที่เสถียรด้วย pip :

 pip3 install rlcard

การติดตั้งเริ่มต้นจะรวมถึงสภาพแวดล้อมของการ์ดเท่านั้น หากต้องการใช้การใช้งาน Pytorch ของอัลกอริทึมการฝึกอบรมให้เรียกใช้

 pip3 install rlcard[torch]

หากคุณอยู่ในประเทศจีนและคำสั่งข้างต้นช้าเกินไปคุณสามารถใช้กระจกที่ได้รับจากมหาวิทยาลัย Tsinghua:

 pip3 install rlcard -i https://pypi.tuna.tsinghua.edu.cn/simple

หรือคุณสามารถโคลนเวอร์ชันล่าสุดด้วย (ถ้าคุณอยู่ในประเทศจีนและ GitHub ช้าคุณสามารถใช้กระจกใน Gitee):

 git clone https://github.com/datamllab/rlcard.git

หรือเฉพาะสาขาหนึ่งสาขาที่จะทำให้เร็วขึ้น:

 git clone -b master --single-branch --depth=1 https://github.com/datamllab/rlcard.git

จากนั้นติดตั้งด้วย

 cd rlcard
pip3 install -e .
pip3 install -e .[torch]

นอกจากนี้เรายังมีวิธีการติดตั้ง conda :

 conda install -c toubun rlcard

การติดตั้ง Conda มีสภาพแวดล้อมการ์ดเท่านั้นคุณต้องติดตั้ง pytorch ด้วยตนเองตามความต้องการของคุณ

ตัวอย่าง

ตัวอย่างสั้น ๆ คือด้านล่าง

 import rlcard
from rlcard . agents import RandomAgent

env = rlcard . make ( 'blackjack' )
env . set_agents ([ RandomAgent ( num_actions = env . num_actions )])

print ( env . num_actions ) # 2
print ( env . num_players ) # 1
print ( env . state_shape ) # [[2]]
print ( env . action_shape ) # [None]

trajectories , payoffs = env . run ()

RLCARD สามารถเชื่อมต่อได้อย่างยืดหยุ่นกับอัลกอริทึมต่างๆ ดูตัวอย่างต่อไปนี้:

เล่นกับตัวแทนสุ่ม
Deep-Q การเรียนรู้เกี่ยวกับแบล็คแจ็ค
การฝึกอบรม CFR (การสุ่มตัวอย่างโอกาส) บน leduc hold'em
มีความสนุกสนานกับรุ่น LEDUC ที่ผ่านการฝึกฝนมาก่อน
การฝึกอบรม DMC เกี่ยวกับ Dou Dizhu
ตัวแทนประเมินผล
ตัวแทนฝึกอบรมเกี่ยวกับ Pettingzoo

การสาธิต

รัน examples/human/leduc_holdem_human.py เพื่อเล่นกับโมเดล LEDUCED ที่ผ่านการฝึกอบรมมาก่อน Leduc Hold'em เป็นรุ่นที่ง่ายของ Texas Hold'em สามารถพบกฎได้ที่นี่

 >> Leduc Hold'em pre-trained model

>> Start a new game!
>> Agent 1 chooses raise

=============== Community Card ===============
┌─────────┐
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
└─────────┘
===============   Your Hand    ===============
┌─────────┐
│J        │
│         │
│         │
│    ♥    │
│         │
│         │
│        J│
└─────────┘
===============     Chips      ===============
Yours:   +
Agent 1: +++
=========== Actions You Can Choose ===========
0: call, 1: raise, 2: fold

>> You choose action (integer):

นอกจากนี้เรายังมี GUI สำหรับการดีบักง่ายๆ โปรดตรวจสอบที่นี่ การสาธิตบางอย่าง:

Doudizhu-Replay leduc-replay

สภาพแวดล้อมที่มีอยู่

เราให้การประเมินความซับซ้อนสำหรับเกมในหลาย ๆ ด้าน หมายเลข Infoset: จำนวนชุดข้อมูล; ขนาดอินโฟส: จำนวนรัฐเฉลี่ยในชุดข้อมูลเดียว; ขนาดการกระทำ: ขนาดของพื้นที่การกระทำ ชื่อ: ชื่อที่ควรส่งผ่านไปยัง rlcard.make เพื่อสร้างสภาพแวดล้อมของเกม นอกจากนี้เรายังให้ลิงก์ไปยังเอกสารและตัวอย่างแบบสุ่ม

เกม	หมายเลข Infoset	ขนาดอินฟอส	ขนาดการกระทำ	ชื่อ	การใช้งาน
แบล็คแจ็ค (วิกิ, baike)	10^3	10^1	10^0	กระบอง	เอกสารตัวอย่าง
leduc hold'em (กระดาษ)	10^2	10^2	10^0	Leduc-holdem	เอกสารตัวอย่าง
จำกัด Texas Hold'em (Wiki, Baike)	10^14	10^3	10^0	ขีด จำกัด	เอกสารตัวอย่าง
Dou Dizhu (Wiki, Baike)	10^53 ~ 10^83	10^23	10^4	Doudizhu	เอกสารตัวอย่าง
Mahjong (Wiki, Baike)	10^121	10^48	10^2	มงกุฎ	เอกสารตัวอย่าง
No-Limit Texas Hold'em (Wiki, Baike)	10^162	10^3	10^4	ไม่มีข้อ จำกัด	เอกสารตัวอย่าง
UNO (Wiki, Baike)	10^163	10^10	10^1	uno	เอกสารตัวอย่าง
Gin Rummy (Wiki, Baike)	10^52	-	-	จินรัมมี่	เอกสารตัวอย่าง
Bridge (Wiki, Baike)		-	-	สะพาน	เอกสารตัวอย่าง

อัลกอริทึมที่รองรับ

อัลกอริทึม	ตัวอย่าง	อ้างอิง
Deep Monte-Carlo (DMC)	ตัวอย่าง/run_dmc.py	[กระดาษ]
Q-Learning ลึก (DQN)	ตัวอย่าง/run_rl.py	[กระดาษ]
การเล่นด้วยตนเองของระบบประสาท (NFSP)	ตัวอย่าง/run_rl.py	[กระดาษ]
การลดความเสียใจในการต่อต้าน (CFR)	ตัวอย่าง/run_cfr.py	[กระดาษ]

โมเดลที่ผ่านการฝึกอบรมมาก่อนและตามกฎ

เราให้บริการสวนสัตว์แบบจำลองเพื่อใช้เป็นเส้นเขตแดน

แบบอย่าง	คำอธิบาย
LEDUC-HOLDEM-CFR	รุ่น CFR ที่ผ่านการฝึกอบรมมาก่อน (การสุ่มตัวอย่างโอกาส) บน leduc hold'em
LEDUC-HOLDEM-RULE-V1	แบบจำลองตามกฎสำหรับ leduc hold'em, v1
LEDUC-HOLDEM-RULE-V2	แบบจำลองตามกฎสำหรับ Leduc Hold'em, v2
uno-rule-v1	แบบจำลองตามกฎสำหรับ UNO, v1
Limit Holdem-Rule-V1	แบบจำลองตามกฎสำหรับ Limit Texas Hold'em, v1
Doudizhu-Rule-V1	แบบจำลองตามกฎสำหรับ Dou Dizhu, v1
Gin-Rummy-Novice-Rule	รูปแบบกฎสามเณร Gin Rummy

API Cheat Sheet

วิธีสร้างสภาพแวดล้อม

คุณสามารถใช้อินเทอร์เฟซต่อไปนี้เพื่อสร้างสภาพแวดล้อม คุณอาจเลือกระบุการกำหนดค่าบางอย่างด้วยพจนานุกรม

env = rlcard.make (env_id, config = {}) : สร้างสภาพแวดล้อม env_id เป็นสตริงของสภาพแวดล้อม config เป็นพจนานุกรมที่ระบุการกำหนดค่าสภาพแวดล้อมบางอย่างซึ่งมีดังนี้
- seed : None เริ่มต้น ตั้งค่าเมล็ดพันธุ์แบบสุ่มในท้องถิ่นเพื่อสร้างผลลัพธ์ซ้ำ
- allow_step_back : ค่าเริ่ม False True ถ้าอนุญาตให้ฟังก์ชั่น step_back ข้ามไปข้างหลังในต้นไม้
- การกำหนดค่าเฉพาะเกม: ฟิลด์เหล่านี้เริ่มต้นด้วย game_ ปัจจุบันเราสนับสนุนเฉพาะ game_num_players ในแบล็คแจ็ค,

เมื่อสร้างสภาพแวดล้อมแล้วเราสามารถเข้าถึงข้อมูลบางอย่างของเกมได้

env.num_actions : จำนวนการกระทำ
env.num_players : จำนวนผู้เล่น
env.state_shape : รูปร่างของพื้นที่สถานะของการสังเกต
env.action_shape : รูปร่างของคุณสมบัติการกระทำ (การกระทำของ Dou Dizhu สามารถเข้ารหัสเป็นคุณสมบัติได้)

รัฐใน RLCARD คืออะไร

รัฐเป็นพจนานุกรม Python มันประกอบด้วย state['obs'] , การดำเนินการทางกฎหมาย state['legal_actions'] , state['raw_obs'] และการดำเนินการทางกฎหมายดิบ state['raw_legal_actions']

อินเทอร์เฟซพื้นฐาน

อินเทอร์เฟซต่อไปนี้ให้การใช้งานพื้นฐาน มันใช้งานง่าย แต่มีการสันนิษฐานในตัวแทน เอเจนต์จะต้องติดตามเทมเพลตเอเจนต์

env.set_agents (ตัวแทน) : agents เป็นรายการของวัตถุ Agent ความยาวของรายการควรเท่ากับจำนวนผู้เล่นในเกม
env.run (is_training = false) : เรียกใช้เกมที่สมบูรณ์และกลับมาวิถีและผลตอบแทน ฟังก์ชั่นสามารถใช้งานได้หลังจากเรียกว่า set_agents หาก is_training เป็น True มันจะใช้ฟังก์ชั่น step ในเอเจนต์เพื่อเล่นเกม หาก is_training เป็น False eval_step จะถูกเรียกแทน

อินเทอร์เฟซขั้นสูง

สำหรับการใช้งานขั้นสูงอินเทอร์เฟซต่อไปนี้จะช่วยให้การทำงานที่ยืดหยุ่นบนแผนผังเกม อินเทอร์เฟซเหล่านี้ไม่ได้ทำการสันนิษฐานใด ๆ ในเอเจนต์

env.reset () : เริ่มต้นเกม ส่งคืนสถานะและรหัสผู้เล่นคนแรก
env.step (การกระทำ, raw_action = false) : ทำขั้นตอนเดียวในสภาพแวดล้อม action อาจเป็นการกระทำที่ดิบหรือจำนวนเต็ม raw_action ควรเป็น True หากการกระทำคือการกระทำ RAW (สตริง)
env.step_back () : ใช้ได้เฉพาะเมื่อ allow_step_back เป็น True ย้อนกลับไปหนึ่งก้าว สิ่งนี้สามารถใช้สำหรับอัลกอริทึมที่ทำงานบนต้นไม้เกมเช่น CFR (การสุ่มตัวอย่างโอกาส)
env.is_over () : ส่งคืน True ถ้าเกมปัจจุบันจบลง otherewise กลับมา False
env.get_player_id () : ส่งคืน ID ผู้เล่นของผู้เล่นปัจจุบัน
env.get_state (player_id) : ส่งคืนสถานะที่สอดคล้องกับ player_id
env.get_payoffs () : ในตอนท้ายของเกมส่งคืนรายการผลตอบแทนสำหรับผู้เล่นทุกคน
env.get_perfect_information () : (ปัจจุบันรองรับบางเกมเท่านั้น) รับข้อมูลที่สมบูรณ์แบบในสถานะปัจจุบัน

โครงสร้างห้องสมุด

วัตถุประสงค์ของโมดูลหลักมีการระบุไว้ด้านล่าง:

/ตัวอย่าง: ตัวอย่างของการใช้ RLCARD
/เอกสาร: เอกสารของ RLCARD
/การทดสอบ: การทดสอบสคริปต์สำหรับ RLCARD
/RLCARD/ตัวแทน: อัลกอริทึมการเรียนรู้การเสริมแรงและตัวแทนมนุษย์
/rlcard/envs: wrappers สภาพแวดล้อม (การเป็นตัวแทนของรัฐ, การเข้ารหัสการดำเนินการ ฯลฯ )
/RLCARD/GAMES: เอ็นจิ้นเกมต่างๆ
/RLCARD/รุ่น: สวนสัตว์รุ่นรวมถึงรุ่นที่ผ่านการฝึกอบรมมาก่อนและรุ่นกฎ

เอกสารเพิ่มเติม

สำหรับเอกสารเพิ่มเติมโปรดดูเอกสารสำหรับการแนะนำทั่วไป เอกสาร API มีอยู่ที่เว็บไซต์ของเรา

การบริจาค

การมีส่วนร่วมในโครงการนี้ได้รับการชื่นชมอย่างมาก! โปรดสร้างปัญหาสำหรับข้อเสนอแนะ/ข้อบกพร่อง หากคุณต้องการมีส่วนร่วมในรหัสโปรดดูคู่มือการสนับสนุน หากคุณมีคำถามใด ๆ โปรดติดต่อ Daochen Zha ด้วย [email protected]