rlcard Download - rlcard Code source Télécharger

rlcard

Autre code source

RLCard 1.0.7

Télécharger

RLCard: une boîte à outils pour l'apprentissage du renforcement dans les jeux de cartes

中文文档

RLCard est une boîte à outils pour le renforcement d'apprentissage (RL) dans les jeux de cartes. Il prend en charge plusieurs environnements de carte avec des interfaces faciles à utiliser pour implémenter divers algorithmes d'apprentissage et de recherche de renforcement. L'objectif de RLCard est de combler les jeux d'information sur l'apprentissage par renforcement et les informations imparfaites. RLCARD est développé par Data Lab de Rice and Texas A&M University et des contributeurs communautaires.

Site officiel: https://www.rlcard.org
Tutoriel dans Jupyter Notebook: https://github.com/datamllab/rlcard-tutorial
Papier: https://arxiv.org/abs/1910.04376
Vidéo: YouTube
GUI: rlcard-showdown
Démo Dou Dizhu: démo
Ressources: génial-jeu-ai
Projet connexe: Projet Douzero
Zhihu: https://zhuanlan.zhihu.com/p/526723604
Ressources diverses:
- Consultez notre modèle de série temporelle à grande envergure (LTSM)!
- Avez-vous entendu parler de l'IA centrée sur les données? Veuillez consulter notre enquête sur l'IA axée sur les données et nos superbes ressources d'IA axées sur les données!

Communauté:

Slack : Discutez dans notre canal Slack # rlcard-project.
Groupe QQ : rejoignez notre groupe QQ pour discuter. Mot de passe: rlcardqqgroup
- Groupe 1: 665647450
- Groupe 2: 117349516

Nouvelles:

Nous avons mis à jour les tutoriels dans Jupyter Notebook pour vous aider à parcourir RLCard! Veuillez vérifier le tutoriel RLCard.
Tous les algorithmes peuvent supprimer Pettingzoo maintenant. Veuillez vérifier ici. Merci la contribution de Yifei Cheng.
Veuillez suivre Douzero, un solide Dou Dizhu AI et le papier ICML 2021. Une démo en ligne est disponible ici. L'algorithme est également intégré dans RLCARD. Voir la formation DMC sur Dou Dizhu.
Notre forfait est utilisé dans Pettingzoo. Veuillez le vérifier!
Nous avons publié RLCard-Showdown, GUI Demo pour RLCard. Veuillez consulter ici!
Tutoriel de cahier Jupyter Disponible! Nous ajoutons quelques exemples dans R pour appeler les interfaces Python de RLCard avec réticulé. Voir ici
Merci pour la contribution de @ Clarit7 pour avoir soutenu différents nombres de joueurs en blackjack. Nous appelons les contributions pour rendre progressivement les jeux plus configurables. Voir ici pour plus de détails.
Merci pour la contribution de @ Clarit7 pour l'interface humaine Blackjack et Limit Hold'em.
Maintenant, RLCard soutient l'environnement entre l'ensemencement et le multiprocessement local. Merci pour les scripts de test fournis par @weepingwillowben.
Interface humaine de Nolimit Holdem disponible. L'espace d'action de Nolimit Holdem a été abstrait. Merci pour la contribution de @ Adrianp-.
New Game Gin Rummy et Human GUI disponibles. Merci pour la contribution de @ BillH0420.
Implémentation de Pytorch disponible. Merci pour la contribution de @mjudell.

Contributeurs

Les jeux suivants sont principalement développés et maintenus par des contributeurs communautaires. Merci!

Gin Rumm: @ Billh0420
Bridge: @ Billh0420

Merci à tous les contributeurs!

daochenzha hsywhu Caoyuanpu Billh0420 Ruzhwei adrianpgob Zhigal AYPEE19 Clarit7 Lhenry15 Ismael-Elafi mjudell jkterry1 kaanozdogru Junyuguo
Xixo99 rodrigodelazcano Michael1015198808 MIA1996 kaiks Claude9493 Sonde Rishabhvarshney14 Aetheryang rxng8 non décidibile Benblack769 zhengsx andrewnc

Citer ce travail

Si vous trouvez ce dépôt utile, vous pouvez citer:

Zha, Daochen et al. "RLCard: une plate-forme pour l'apprentissage du renforcement dans les jeux de cartes." Ijcai. 2020.

 @inproceedings { zha2020rlcard ,
  title = { RLCard: A Platform for Reinforcement Learning in Card Games } ,
  author = { Zha, Daochen and Lai, Kwei-Herng and Huang, Songyi and Cao, Yuanpu and Reddy, Keerthana and Vargas, Juan and Nguyen, Alex and Wei, Ruzhe and Guo, Junyu and Hu, Xia } ,
  booktitle = { IJCAI } ,
  year = { 2020 }
}

Installation

Assurez-vous que Python 3.6+ et PIP sont installés. Nous vous recommandons d'installer la version stable de rlcard avec pip :

 pip3 install rlcard

L'installation par défaut n'inclura que les environnements de carte. Pour utiliser la mise en œuvre pytorch des algorithmes de formation, exécutez

 pip3 install rlcard[torch]

Si vous êtes en Chine et que la commande ci-dessus est trop lente, vous pouvez utiliser le miroir fourni par l'Université Tsinghua:

 pip3 install rlcard -i https://pypi.tuna.tsinghua.edu.cn/simple

Alternativement, vous pouvez cloner la dernière version (si vous êtes en Chine et que GitHub est lent, vous pouvez utiliser le miroir en gitee):

 git clone https://github.com/datamllab/rlcard.git

Ou seulement cloner une branche pour le rendre plus rapide:

 git clone -b master --single-branch --depth=1 https://github.com/datamllab/rlcard.git

Puis installer avec

 cd rlcard
pip3 install -e .
pip3 install -e .[torch]

Nous fournissons également la méthode d'installation de conda :

 conda install -c toubun rlcard

L'installation de Conda fournit uniquement les environnements de carte, vous devez installer manuellement Pytorch sur vos demandes.

Exemples

Un court exemple est comme ci-dessous.

 import rlcard
from rlcard . agents import RandomAgent

env = rlcard . make ( 'blackjack' )
env . set_agents ([ RandomAgent ( num_actions = env . num_actions )])

print ( env . num_actions ) # 2
print ( env . num_players ) # 1
print ( env . state_shape ) # [[2]]
print ( env . action_shape ) # [None]

trajectories , payoffs = env . run ()

RLCard peut être connecté de manière flexible à divers algorithmes. Voir les exemples suivants:

Jouer avec des agents aléatoires
Apprentissage profond sur le blackjack
Formation CFR (échantillonnage de hasard) sur Leduc Hold'em
S'amuser avec le modèle LEDUC pré-entraîné
Formation DMC sur Dou Dizhu
Évaluation des agents
Agents de formation sur Pettingzoo

Démo

Exécutez examples/human/leduc_holdem_human.py pour jouer avec le modèle LEDUC Hold'em pré-formé. LeDuc Hold'em est une version simplifiée du Texas Hold'em. Les règles peuvent être trouvées ici.

 >> Leduc Hold'em pre-trained model

>> Start a new game!
>> Agent 1 chooses raise

=============== Community Card ===============
┌─────────┐
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
└─────────┘
===============   Your Hand    ===============
┌─────────┐
│J        │
│         │
│         │
│    ♥    │
│         │
│         │
│        J│
└─────────┘
===============     Chips      ===============
Yours:   +
Agent 1: +++
=========== Actions You Can Choose ===========
0: call, 1: raise, 2: fold

>> You choose action (integer):

Nous fournissons également une interface graphique pour un débogage facile. Veuillez vérifier ici. Quelques démos:

Doudizhu-Replay leduc-re-play

Environnements disponibles

Nous fournissons une estimation de complexité pour les jeux sur plusieurs aspects. Numéro InfoSet: le nombre d'ensembles d'informations; Taille de l'infoset: le nombre moyen d'états dans un seul ensemble d'informations; Taille de l'action: la taille de l'espace d'action. Nom: le nom qui doit être transmis à rlcard.make pour créer l'environnement de jeu. Nous fournissons également le lien vers la documentation et l'exemple aléatoire.

Jeu	Numéro entre Infoset	Taille de l'enfilage	Taille d'action	Nom	Usage
Blackjack (wiki, baike)	10 ^ 3	10 ^ 1	10 ^ 0	blackjack	Doc, exemple
Leduc Hold'em (papier)	10 ^ 2	10 ^ 2	10 ^ 0	leduc-holdem	Doc, exemple
Limiter le Texas Hold'em (Wiki, Baike)	10 ^ 14	10 ^ 3	10 ^ 0	limite	Doc, exemple
Dou Dizhu (Wiki, Baike)	10 ^ 53 ~ 10 ^ 83	10 ^ 23	10 ^ 4	Doudizhu	Doc, exemple
Mahjong (wiki, baike)	10 ^ 121	10 ^ 48	10 ^ 2	mahjong	Doc, exemple
No-limit texas hold'em (wiki, baike)	10 ^ 162	10 ^ 3	10 ^ 4	sans limite	Doc, exemple
Uno (wiki, baike)	10 ^ 163	10 ^ 10	10 ^ 1	uno	Doc, exemple
Gin rami (wiki, baike)	10 ^ 52	-	-	gin-rimy	Doc, exemple
Bridge (wiki, baike)		-	-	pont	Doc, exemple

Algorithmes pris en charge

Algorithme	exemple	référence
Deep Monte-Carlo (DMC)	Exemples / run_dmc.py	[papier]
Learning Q-Learning (DQN)	Exemples / run_rl.py	[papier]
Auto-play fictive neurale (NFSP)	Exemples / run_rl.py	[papier]
Minimisation des regrets contrefactuels (CFR)	Exemples / run_cfr.py	[papier]

Modèles pré-formés et basés sur des règles

Nous fournissons un zoo modèle pour servir de lignes de base.

Modèle	Explication
Leduc-Holdem-Cfr	Modèle CFR pré-formé (échantillonnage de hasard) sur LeDuc Hold'em
Leduc-Holdem-Rule-V1	Modèle basé sur des règles pour LeCUc Hold'em, V1
leduc-Holdem-Rule-V2	Modèle basé sur des règles pour LeCUc Hold'em, V2
Uno-Rule-V1	Modèle basé sur les règles pour l'UNO, V1
limite-holdem-rule-v1	Modèle basé sur des règles pour Limit Texas Hold'em, V1
Doudizhu-Rule-V1	Modèle basé sur des règles pour Dou Dizhu, V1
gin-rummy-novice-Rule	Modèle de règle novice du rami

Feuille de triche API

Comment créer un environnement

Vous pouvez utiliser l'interface suivante pour créer un environnement. Vous pouvez éventuellement spécifier certaines configurations avec un dictionnaire.

Env = rlCard.Make (Env_id, config = {}) : faire un environnement. env_id est une chaîne d'un environnement; config est un dictionnaire qui spécifie certaines configurations d'environnement, qui sont les suivantes.
- seed : par défaut None . Définissez une graine aléatoire locale de l'environnement pour reproduire les résultats.
- allow_step_back : par défaut False . True si vous permettant à la fonction step_back de traverser vers l'arrière dans l'arbre.
- Configurations spécifiques au jeu: ces champs commencent par game_ . Actuellement, nous ne soutenons que game_num_players dans Blackjack ,.

Une fois l'environnement réalisé, nous pouvons accéder à certaines informations du jeu.

Env.num_actions : le nombre d'actions.
Env.num_players : le nombre de joueurs.
Env.state_shape : la forme de l'espace d'état des observations.
Env.action_shape : la forme des caractéristiques de l'action (l'action de Dou Dizhu peut encoder en fonctionnalités)

Qu'est-ce que l'état à RLCard

L'état est un dictionnaire Python. Il se compose d' state['obs'] , state['legal_actions'] , state['raw_obs'] et state['raw_legal_actions'] .

Interfaces de base

Les interfaces suivantes fournissent une utilisation de base. Il est facile à utiliser, mais il a des suppositions sur l'agent. L'agent doit suivre le modèle d'agent.

Env.set_agents (Agents) : agents est une liste d'objets Agent . La durée de la liste doit être égale au nombre de joueurs du jeu.
Env.run (is_training = false) : exécutez un jeu complet et renvoyez les trajectoires et les gains. La fonction peut être utilisée après l'appel du set_agents . Si is_training est True , il utilisera la fonction step dans l'agent pour jouer au jeu. Si is_training est False , eval_step sera appelé à la place.

Interfaces avancées

Pour une utilisation avancée, les interfaces suivantes permettent des opérations flexibles sur l'arbre de jeu. Ces interfaces ne font aucune supposition sur l'agent.

Env.Reset () : Initialisez un jeu. Renvoyez l'état et le premier ID du joueur.
Env.Step (Action, Raw_action = False) : Faites un pas dans l'environnement. action peut être une action brute ou un entier; raw_action doit être True si l'action est une action brute (chaîne).
Env.step_back () : Disponible uniquement lorsque allow_step_back est True . Faites un pas en arrière. Cela peut être utilisé pour les algorithmes qui fonctionnent sur l'arborescence du jeu, comme CFR (échantillonnage de hasard).
Env.is_over () : Retour True si le jeu actuel est terminé. Autrement, retournez False .
Env.get_player_id () : Renvoyez l'ID de lecteur du lecteur actuel.
Env.get_state (Player_ID) : Renvoyez l'état qui correspond à player_id .
Env.get_payoffs () : À la fin du jeu, renvoyez une liste de gains pour tous les joueurs.
Env.get_perfect_information () : (ne prend actuellement en charge que certains jeux) obtenez les informations parfaites à l'état actuel.

Structure de bibliothèque

Les objectifs des modules principaux sont répertoriés comme ci-dessous:

/ Exemples: Exemples d'utilisation de RLCard.
/ Docs: Documentation de RLCard.
/ Tests: test de scripts pour RLCard.
/ RLCard / Agents: Algorithmes d'apprentissage du renforcement et agents humains.
/ rlcard / envs: emballages environnementaux (représentation de l'État, encodage d'action, etc.)
/ rlcard / jeux: divers moteurs de jeu.
/ RLCard / Modèles: Modèle Zoo, y compris les modèles pré-formés et les modèles de règles.

Plus de documents

Pour plus de documentation, veuillez vous référer aux documents pour les introductions générales. Les documents API sont disponibles sur notre site Web.

Contributif

La contribution à ce projet est grandement appréciée! Veuillez créer un problème pour les commentaires / bogues. Si vous souhaitez contribuer des codes, veuillez vous référer au guide contributeur. Si vous avez des questions, veuillez contacter Daochen Zha avec [email protected].