Download do rlcard - Download do código fonte rlcard

rlcard

Outro código-fonte

RLCard 1.0.7

Baixar

RLCARD: um kit de ferramentas para o aprendizado de reforço em jogos de cartas

中文文档

O RLCARD é um kit de ferramentas para aprendizado de reforço (RL) em jogos de cartas. Ele suporta vários ambientes de cartões com interfaces fáceis de usar para implementar vários algoritmos de aprendizado de reforço e pesquisa. O objetivo do RLCARD é preencher a aprendizagem de reforço e os jogos de informação imperfeitos. O RLCARD é desenvolvido pelo Data Lab na Rice e na Texas A&M University e colaboradores da comunidade.

Site oficial: https://www.rlcard.org
Tutorial no Jupyter Notebook: https://github.com/datamllab/rlcard-tutorial
Papel: https://arxiv.org/abs/1910.04376
Vídeo: YouTube
GUI: RLCARD-SHOWDOWN
Demo Dou Dizhu: Demonstração
RECURSOS: AMPRESSIONAÇÃO AIM-AI
Projeto relacionado: Projeto Douzero
Zhihu: https://zhuanlan.zhihu.com/p/526723604
Recursos diversos:
- Confira nosso modelo de séries temporais de origem aberta (LTSM)!
- Você já ouviu falar da IA centrada em dados? Confira nossa pesquisa de IA centrada em dados e recursos incríveis de IA centrados em dados!

Comunidade:

Slack : Discuta em nosso canal Slack #RLCard-Project.
Grupo QQ : junte -se ao nosso grupo QQ para discutir. Senha: RLCardQQGroup
- Grupo 1: 665647450
- Grupo 2: 117349516

Notícias:

Atualizamos os tutoriais no Jupyter Notebook para ajudá -lo a passar pelo RLCARD! Por favor, verifique o tutorial do RLCARD.
Todos os algoritmos podem suportar Pettingzoo agora. Por favor, verifique aqui. Obrigado pela contribuição de Yifei Cheng.
Siga Douzero, um forte Dou Dizhu AI e o artigo ICML 2021. Uma demonstração online está disponível aqui. O algoritmo também é integrado no RLCARD. Consulte Treinamento DMC em Dou Dizhu.
Nosso pacote é usado em Pettingzoo. Por favor, confira!
Lançamos o RLCARD-SHOWDOWN, GUI Demo para RlCard. Por favor, confira aqui!
Jupyter Notebook Tutorial disponível! Adicionamos alguns exemplos em R para chamar interfaces python de rlCard com reticulado. Veja aqui
Obrigado pela contribuição do @Clarit7 por apoiar o número diferente de jogadores no Blackjack. Pedimos contribuições para tornar gradualmente os jogos mais configuráveis. Veja aqui para mais detalhes.
Obrigado pela contribuição de @clarit7 pelo blackjack e limite interface humana hold'em.
Agora, o RLCARD suporta o ambiente semeadura local e multiprocessamento. Obrigado pelos scripts de teste fornecidos por @weepwillowben.
Interface humana do nolimit holdem disponível. O espaço de ação do Nolimit Holdem foi abstraído. Obrigado pela contribuição de @adrianp-.
Novo jogo Gin Rummy e Human GUI disponíveis. Obrigado pela contribuição de @bilh0420.
Implementação de Pytorch disponível. Obrigado pela contribuição de @mjudell.

Colaboradores

Os jogos a seguir são desenvolvidos e mantidos principalmente pelos colaboradores da comunidade. Obrigado!

Gin Rummy: @BillH0420
Bridge: @BillH0420

Agradeça a todos os colaboradores!

Daochenzha Hsywhu Caoyuanpu BillH0420 Ruzhwei Adrianpgob Zhigal Aypee19 Clarit7 LHENRY15 Ismael-Elatifi MJUDELL Jkterry1 Kaanozdogru Junyuguo
XIXO99 Rodrigodelazcano Michael1015198808 MIA1996 Kaiks Claude9493 Sonsang Rishabhvarshney14 Aetheryang rxng8 não -acidibil Benblack769 Zhengsx Andrewnc

Citar este trabalho

Se você achar esse repositório útil, pode citar:

Zha, Daochen, et al. "RLCARD: uma plataforma para aprendizado de reforço em jogos de cartas". Ijcai. 2020.

 @inproceedings { zha2020rlcard ,
  title = { RLCard: A Platform for Reinforcement Learning in Card Games } ,
  author = { Zha, Daochen and Lai, Kwei-Herng and Huang, Songyi and Cao, Yuanpu and Reddy, Keerthana and Vargas, Juan and Nguyen, Alex and Wei, Ruzhe and Guo, Junyu and Hu, Xia } ,
  booktitle = { IJCAI } ,
  year = { 2020 }
}

Instalação

Certifique -se de ter o Python 3.6+ e o PIP instalado. Recomendamos instalar a versão estável do rlcard com pip :

 pip3 install rlcard

A instalação padrão incluirá apenas os ambientes de cartão. Para usar a implementação de Pytorch dos algoritmos de treinamento, execute

 pip3 install rlcard[torch]

Se você estiver na China e o comando acima é muito lento, pode usar o espelho fornecido pela Universidade de Tsinghua:

 pip3 install rlcard -i https://pypi.tuna.tsinghua.edu.cn/simple

Como alternativa, você pode clonar a versão mais recente com (se estiver na China e o Github é lento, você pode usar o espelho em Gitee):

 git clone https://github.com/datamllab/rlcard.git

ou apenas clone um ramo para torná -lo mais rápido:

 git clone -b master --single-branch --depth=1 https://github.com/datamllab/rlcard.git

Em seguida, instale com

 cd rlcard
pip3 install -e .
pip3 install -e .[torch]

Também fornecemos o método de instalação do CONDA :

 conda install -c toubun rlcard

A instalação do CONDA fornece apenas os ambientes de cartão, você precisa instalar manualmente o Pytorch em suas demandas.

Exemplos

Um pequeno exemplo é o abaixo.

 import rlcard
from rlcard . agents import RandomAgent

env = rlcard . make ( 'blackjack' )
env . set_agents ([ RandomAgent ( num_actions = env . num_actions )])

print ( env . num_actions ) # 2
print ( env . num_players ) # 1
print ( env . state_shape ) # [[2]]
print ( env . action_shape ) # [None]

trajectories , payoffs = env . run ()

O RLCARD pode ser conectado com flexibilidade a vários algoritmos. Veja os seguintes exemplos:

Brincando com agentes aleatórios
Aprendizagem profunda do Blackjack
Treinando CFR (Chance Sampling) em Leduc Hold'em
Se divertindo com o modelo LEDUC pré -treinado
Treinando DMC em Dou Dizhu
Avaliação de agentes
Agentes de treinamento em Pettingzoo

Demonstração

Execute examples/human/leduc_holdem_human.py para brincar com o modelo Leduc Hold'em pré-treinado. Leduc Hold'em é uma versão simplificada do Texas Hold'em. As regras podem ser encontradas aqui.

 >> Leduc Hold'em pre-trained model

>> Start a new game!
>> Agent 1 chooses raise

=============== Community Card ===============
┌─────────┐
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
│░░░░░░░░░│
└─────────┘
===============   Your Hand    ===============
┌─────────┐
│J        │
│         │
│         │
│    ♥    │
│         │
│         │
│        J│
└─────────┘
===============     Chips      ===============
Yours:   +
Agent 1: +++
=========== Actions You Can Choose ===========
0: call, 1: raise, 2: fold

>> You choose action (integer):

Também fornecemos uma GUI para facilitar a depuração. Por favor, verifique aqui. Algumas demos:

Doudizhu-replay Replay Leduc-Replay

Ambientes disponíveis

Fornecemos uma estimativa de complexidade para os jogos em vários aspectos. Número do InfoSet: o número de conjuntos de informações; Tamanho do InfoSet: o número médio de estados em um único conjunto de informações; Tamanho da ação: o tamanho do espaço de ação. Nome: O nome que deve ser passado para rlcard.make para criar o ambiente do jogo. Também fornecemos o link para a documentação e o exemplo aleatório.

Jogo	Número do InfoSet	Tamanho do InfoSet	Tamanho da ação	Nome	Uso
Blackjack (Wiki, Baike)	10^3	10^1	10^0	Blackjack	Doc, exemplo
Leduc Hold'em (papel)	10^2	10^2	10^0	Leduc-Holdem	Doc, exemplo
Limite Texas Hold'em (Wiki, Baike)	10^14	10^3	10^0	Limite-Holdem	Doc, exemplo
Dou Dizhu (Wiki, Baike)	10^53 ~ 10^83	10^23	10^4	Doudizhu	Doc, exemplo
Mahjong (Wiki, Baike)	10^121	10^48	10^2	Mahjong	Doc, exemplo
No-limite Texas Hold'em (Wiki, Baike)	10^162	10^3	10^4	sem limite-holdem	Doc, exemplo
Uno (Wiki, Baike)	10^163	10^10	10^1	Uno	Doc, exemplo
Gin Rummy (Wiki, Baike)	10^52	-	-	gin-rummy	Doc, exemplo
Ponte (wiki, Baike)		-	-	ponte	Doc, exemplo

Algoritmos suportados

Algoritmo	exemplo	referência
Deep Monte-Carlo (DMC)	Exemplos/run_dmc.py	[papel]
Deep Q-Learning (DQN)	Exemplos/run_rl.py	[papel]
Auto-jogada fictícia neural (NFSP)	Exemplos/run_rl.py	[papel]
Minimização de arrependimento contrafactual (CFR)	Exemplos/run_cfr.py	[papel]

Modelos pré-treinados e baseados em regras

Fornecemos um zoológico modelo para servir como linhas de base.

Modelo	Explicação
Leduc-Holdem-CFR	Modelo de CFR (Chance Sampling) pré-treinado no Leduc Hold'em
Leduc-Holdem-Rule-V1	Modelo baseado em regras para leduc hold'em, v1
Leduc-Holdem-Rule-V2	Modelo baseado em regras para Leduc Hold'em, v2
UNO-RULE-V1	Modelo baseado em regras para Uno, v1
Limite-Holdem-Rule-V1	Modelo baseado em regras para limite Texas Hold'em, v1
DOUDIZHU-RULE-V1	Modelo baseado em regras para Dou Dizhu, v1
Gin-rummy-novice-regra	Modelo de regra iniciante em gin rummy

Folha de dicas da API

Como criar um ambiente

Você pode usar a interface a seguir para criar um ambiente. Opcionalmente, você pode especificar algumas configurações com um dicionário.

Env = rlcard.make (Env_id, config = {}) : faça um ambiente. env_id é uma sequência de um ambiente; config é um dicionário que especifica algumas configurações de ambiente, que são as seguintes.
- seed : Padrão None . Defina um ambiente semente aleatória local para reproduzir os resultados.
- allow_step_back : padrão False . True se permitir que a função step_back atravesse para trás na árvore.
- Configurações específicas do jogo: esses campos começam com game_ . Atualmente, apoiamos apenas game_num_players no Blackjack ,.

Depois que o ambiente é feito, podemos acessar algumas informações do jogo.

Env.num_Actions : o número de ações.
Env.num_players : o número de jogadores.
Env.state_shape : a forma do espaço do estado das observações.
Env.action_shape : a forma dos recursos de ação (a ação de Dou Dizhu pode codificar como recursos)

O que é estado em rlcard

Estado é um dicionário de Python. Consiste em state['obs'] , ações legais state['legal_actions'] , state['raw_obs'] e ações legais brutas state['raw_legal_actions'] .

Interfaces básicas

As interfaces a seguir fornecem um uso básico. É fácil de usar, mas tem supostas no agente. O agente deve seguir o modelo do agente.

Env.set_agents (agentes) : agents é uma lista de objeto Agent . A duração da lista deve ser igual ao número de jogadores do jogo.
Env.run (is_training = false) : Execute um jogo completo e retorne trajetórias e pagamentos. A função pode ser usada após a chamada set_agents . Se is_training for True , ele usará a função step no agente para jogar o jogo. Se is_training for False , eval_step será chamado.

Interfaces avançadas

Para uso avançado, as interfaces a seguir permitem operações flexíveis na árvore de jogos. Essas interfaces não fazem nenhuma suposição sobre o agente.

Env.Reset () : Inicialize um jogo. Retorne o estado e o primeiro identificador de jogador.
Env.Tep (ação, raw_action = false) : dê um passo no ambiente. action pode ser ação bruta ou número inteiro; raw_action deve ser True se a ação for a ação bruta (string).
Env.Step_Back () : Disponível somente quando allow_step_back é True . Dê um passo para trás. Isso pode ser usado para algoritmos que operam na árvore de jogos, como CFR (Chance Sampling).
Env.is_over () : retorne True se o jogo atual terminar. Otherewise, retornar False .
Env.get_player_id () : retorne o ID do jogador do jogador atual.
Env.get_state (player_id) : retorne o estado que corresponde a player_id .
Env.get_payoffs () : No final do jogo, retorne uma lista de pagamentos para todos os jogadores.
Env.get_perfect_information () : (atualmente suporta apenas alguns dos jogos) Obtenha as informações perfeitas no estado atual.

Estrutura da biblioteca

Os propósitos dos módulos principais estão listados como abaixo:

/Exemplos: Exemplos de uso do RLCARD.
/Docs: Documentação do RLCARD.
/Testes: testando scripts para rlCard.
/rlcard/agentes: algoritmos de aprendizado de reforço e agentes humanos.
/rlcard/Envs: invólucros de ambiente (representação do estado, codificação de ação etc.)
/rlcard/jogos: vários motores de jogo.
/RLCARD/Modelos: Modelo Zoológico, incluindo modelos pré-treinados e modelos de regras.

Mais documentos

Para mais documentação, consulte os documentos para apresentações gerais. Os documentos da API estão disponíveis em nosso site.

Contribuindo

A contribuição para este projeto é muito apreciada! Crie um problema para feedbacks/bugs. Se você deseja contribuir com códigos, consulte o guia contribuinte. Se você tiver alguma dúvida, entre em contato com Daochen Zha com [email protected].