Download mario ai - mario ai do download do código -fonte

mario ai

Outro código-fonte

1.0.0

Baixar

Sobre

Este projeto contém código para treinar um modelo que reproduz automaticamente o primeiro nível do Super Mario World usando apenas pixels brutos como entrada (sem recursos de engenharia manual). A técnica usada é profunda Q-Learning, conforme descrito no artigo Atari (resumo), combinado com um transformador espacial.

Vídeo

Modelo jogando SMW

Metodologia

Noções básicas, reproduza a memória

O método de treinamento é profundo em q-learning com uma memória de repetição, ou seja, o modelo observa sequências de telas, salva-as em sua memória e depois treina nelas, onde "treinamento" significa que aprende a prever com precisão os valores esperados de recompensa de ação (" ação "significa" pressione o botão x ") com base nas memórias coletadas. A memória de repetição tem, por padrão, um tamanho de 250 mil entradas. Quando começa a ficar cheio, novas entradas substituem as mais antigas. Para os lotes de treinamento, os exemplos são escolhidos aleatoriamente (distribuição uniforme) e as recompensas das memórias são reestimadas com base no que a rede aprendeu até agora.

Entradas, saídas, ações

A entrada de cada exemplo tem a seguinte estrutura:

As últimas ações T, cada uma como dois vetores que. (Dois, porque o modelo pode escolher dois botões: um botão de seta e um dos A/B/X/Y.)
As últimas capturas de tela T, cada uma reduzida para o tamanho 32x32 (escala de cinza, levemente cortada).
A última captura de tela, no tamanho 64x64 (escala de cinza, levemente cortada).

T está atualmente definido como 4 (observe que isso inclui o último estado da sequência). As telas são capturadas em cada 5º quadro. A saída de cada exemplo são os valores de recompensa de ação da ação escolhida (recompensa direta recebida + valor Q-com desconto do próximo estado). O modelo pode escolher duas ações por estado: um botão de seta (para cima, para baixo, direita, esquerda) e um dos outros botões de controle (A, B, X, Y). Isso é diferente do modelo Atari, no qual o agente só poderia escolher um botão de cada vez. (Sem essa mudança, o agente não poderia teoricamente não dar muitos saltos, o que o forçará a manter o botão A pressionado e se mover para a direita.) Como a função de recompensa é construída de tal maneira que quase nunca é 0, exatamente dois de Espera-se que os valores de saída de cada exemplo sejam diferentes de zero.

Função de recompensa

O agente recebe as seguintes recompensas:

Recompensa da Differência X: +0.5 Se o agente se moveu para a direita, +1.0 se ele se movesse rapidamente para a direita (8 pixels ou mais em comparação com o último estado do jogo), -1.0 se ele se movesse para a esquerda e -1.5 se for moveu-se rapidamente para a esquerda (-8 pixels ou mais).
Nível terminado: +2.0 Enquanto a animação acabada de nível estiver jogando.
Morte: -3.0 Enquanto a animação da morte está tocando.

O gamma (desconto para recompensas esperadas/indiretas) está definido como 0.9 .

Treinar o modelo apenas em aumentos de pontuação (como no artigo Atari) provavelmente não funcionaria, porque os inimigos reaparecem quando o local de desova se move para fora da tela, para que o agente possa matá -los repetidamente, cada vez aumentando sua pontuação.

Função de erro

Um MSE seletivo é usado para treinar o agente. Ou seja, para cada exemplo, os gradientes são calculados como seriam para um MSE. No entanto, os gradientes de todos os valores de ação são definidos como 0 se a recompensa de destino foi 0. Isso é porque cada exemplo contém apenas a recompensa recebida por um par de botões escolhidos (botão de seta, outro botão). Outros pares de ações teriam sido possíveis, mas o agente não as escolheu e, portanto, a recompensa por eles não é clara. Seus valores de recompensa (por exemplo) são definidos como 0, mas não porque eram realmente 0, mas porque não sabemos o que recompensa o agente teria recebido se os tivesse escolhido. O gradiente de propagação retropacagante para eles (ou seja, se o agente prever um valor desigual para 0) não é razoável.

Essa implementação pode se dar ao luxo de diferenciar entre os botões escolhidos e não escolhidos (no vetor alvo) com base na recompensa desigual de 0, porque a recompensa recebida de um botão escolhido é (aqui) quase nunca exatamente 0 (devido à construção de a função de recompensa). Outras implementações podem precisar cuidar mais dessa etapa.

Política

A política é um Epsilon-Greedy One, que começa em Epsilon = 0,8 e recoza isso para 0,1 na ação escolhida de 400k-th. Sempre que, de acordo com a política, uma ação aleatória deve ser escolhida, o agente lança uma moeda (ou seja, 50:50) e randomiza uma de suas duas (setas, outros botões) ações ou randomiza as duas.

Arquitetura de modelo

O modelo é composto por três ramos:

Histórico de ações: lista as ações escolhidas anteriormente. Adicionado para que a rede possa, por exemplo, aprender que ele deve liberar o botão A no chão às vezes (impedir que ele prenda sem parar impedirá Mario de pular). Também acrescentou para que a rede possa aprender a manter um salto longo/em altura.
- Este ramo apenas usa uma camada oculta linear.
História da captura de tela: lista as capturas de tela da cadeia estadual (incluindo o último estado). Todas as capturas de tela são reduzidas para 32x32 (escala de cinza). Esta filial pretende deixar a rede os movimentos spot.
- Este ramo usa algumas camadas convolucionais.
- Alguma arquitetura RNN pode ser melhor aqui.
Última captura de tela: Esta filial recebe a captura de tela do último estado em 64x64 (escala de cinza). Destina-se a permitir que a rede tome decisões aprofundadas com base no estado atual.
- Possui um sub-ramo que aplica convoluções para toda a imagem.
- Possui um sub-ramo que aplica convoluções a uma área de interesse, usando um transformador espacial para extrair essa área.

No final dos ramos, tudo é mesclado a um vetor, alimentado através de uma camada oculta, antes de atingir os neurônios de saída. Esses neurônios de saída prevêem a recompensa esperada por botão pressionado.

Visão geral da rede:

Q architecture

O transformador espacial requer uma rede de localização, que é mostrada abaixo:

Localization net architecture

Ambas as redes têm em geral cerca de 6,6M parâmetros.

Limitações

O agente é treinado apenas no primeiro nível (primeiro à direita no mundo acima no início). Outros níveis sofrem significativamente mais com várias dificuldades com as quais o agente dificilmente pode lidar. Alguns deles são:

Punindo quebra -cabeças. O agente geralmente pula para a direita e direto para a morte.
Enormes bolas de canhões. Para passar por eles, você precisa pular sobre eles ou se abaixar sob eles (Big Mario) ou andar embaixo deles (Small Mario). Pular em cima deles é bastante difícil para um jogador de novatos humanos. Esguitar-se ou caminhar embaixo deles é muito difícil para o agente devido à política de Epsilon-Greedy, que fará com que Mario pulará aleatoriamente e depois morra instantaneamente.
Paredes altas/tubos. O agente tem que manter um pressionado para superá -los. Novamente, difícil de aprender e corre contrário à Epsilon-Greedy.
Tubos horizontais. Às vezes, eles estão localizados no final das áreas e você deve entrar neles para chegar à próxima área. O agente tem uma tendência a pular sobre eles (porque adora pular) e continua caminhando para a direita, batendo na parede.

O primeiro nível quase não tem essas dificuldades e, portanto, se presta ao DQN, e é por isso que é usado aqui. O treinamento em qualquer nível e depois testar em outro também é bastante difícil, porque cada nível parece introduzir coisas novas, como inimigos novos e bastante diferentes ou nova mecânica (escalada, novos itens, objetos que o espremem até a morte, etc.).

Uso

Requisitos básicos

Ubuntu.
Muito tempo. Esta não é uma instalação fácil.
Cerca de 2 GB de espaço em disco para a rede e reprodução de memória.
Uma GPU NVIDIA com 4+ GB de memória.
CUDA. Versão 7 ou mais recente deve fazer.
Cudnn. Versão 4 ou mais recente deve fazer.

Instale o procedimento

Certifique -se de ter o Lua 5.1 instalado. Eu tive problemas com 5.2 na tocha.
Certifique -se de ter o GCC 4.9 ou superior instalado. O emulador compilará alegremente com o GCC <4,9, mas às vezes lança erros quando você realmente o usa.
Instale a tocha.
- Siga as etapas de Torch.ch
- Verifique se os pacotes a seguir estão instalados ( luarocks install packageName ): nn , cudnn , paths , image , display . A tela geralmente não faz parte da tocha.
Instale o módulo do transformador espacial para tocha:
- Clone o repositório STNBHDW para algum diretório: git clone https://github.com/qassemoquab/stnbhwd.git
- Mudar para esse diretório: cd stnbhwd
- Compilar o módulo: luarocks make stnbhwd-scm-1.rockspec
Instale o SQLITE3
- sudo apt-get install sqlite3 libsqlite3-dev
- luarocks install lsqlite3
Compilar o emulador:
- Faça o download do código -fonte do LSNES RR2 Beta23. Não versão rr1! (Observe que outros emuladores que o LSNES provavelmente não funcionarão com o código neste repositório.)
- Extraia o código -fonte do emulador e abra o diretório criado.
- source/src/libray/lua.cpp e insira o seguinte código em namespace { :
```
 #ifndef LUA_OK
#define LUA_OK 0
#endif

#ifdef LUA_ERRGCMM
	REGISTER_LONG_CONSTANT("LUA_ERRGCMM", LUA_ERRGCMM, CONST_PERSISTENT | CONST_CS);
#endif
```
  Isso faz com que o emulador seja executado no Lua 5.1. Versões mais recentes (do que beta23) do LSNES RR2 podem não precisar disso.
- source/include/core/controller.hpp e altere a função do_button_action de privado para público. Basta cortar a linha void do_button_action(const std::string& name, short newstate, int mode); No private: Block e Cole -o no public: Block.
- source/src/lua/input.cpp e antes de lua::functions LUA_input_fns(... (no final do arquivo) inserir:
```
	int do_button_action(lua::state& L, lua::parameters& P)
	{
		auto& core = CORE();

		std::string name;
		short newstate;
		int mode;

		P(name, newstate, mode);
		core.buttons->do_button_action(name, newstate, mode);
		return 1;
	}
```
  Esse método foi necessário para realmente pressionar os botões dos scripts personalizados da Lua. Todas as funções Lua padrão do emulador para isso nunca funcionariam, porque core.lua2->input_controllerdata aparentemente nunca é definido (qual btw permitirá que essas funções falhem silenciosamente, ou seja, sem nenhum erro).
- Novamente na source/src/lua/input.cpp , no bloco lua::functions LUA_input_fns(... , adicione do_button_action aos comandos da Lua que podem ser chamados dos scripts Lua carregados no emulador. Para fazer isso, mude a linha {"controller_info", controller_info}, para {"controller_info", controller_info}, {"do_button_action", do_button_action}, .
- Volte para source/ .
- Compilar o emulador com make .
  - Você pode encontrar problemas durante esta etapa que exigirá muito pesquisando no Google para resolver. Não é melhor aqui.
  - Se você encontrar problemas com o Portaudio, desative -o no arquivo options.build .
  - Se você encontrar problemas com algo como libwxgtk, instale o pacote libwxgtk3.0-dev e não a versão 2.8-DEV, como a página oficial desse pacote pode dizer para você fazer.
- Da source/ execute sudo cp lsnes /usr/bin/ && sudo chown root:root /usr/bin/lsnes . Depois disso, você pode iniciar o LSNES simplesmente digitando lsnes em uma janela do console.
Agora crie um Ramdisk. Isso será usado para salvar capturas de tela do jogo (para obter os valores de pixel). Faça o seguinte:
- sudo mkdir /media/ramdisk
- sudo chmod 777 /media/ramdisk
- sudo mount -t tmpfs -o size=128M none /media/ramdisk && mkdir /media/ramdisk/mario-ai-screenshots
- Nota: você pode escolher um caminho diferente. Então você terá que alterar SCREENSHOT_FILEPATH em config.lua .
- Nota: você não precisa usar um Ramdisk, mas seu disco rígido provavelmente não vai gostar do desgaste constante de muitas capturas de tela sendo salvas.

Treinamento

Clone este repositório via git clone https://github.com/aleju/mario-ai.git .
cd no diretório criado.
Baixe uma ROM do Super Mario World (EUA).
Inicie o LSNES (do diretório do repositório) usando lsnes em uma janela de terminal.
No emulador, vá para Configure -> Settings -> Advanced e defina o limite de memória Lua como 1024 MB. (Só deve ser feito uma vez.)
Configure os botões do controlador ( Configure -> Settings -> Controller ). Jogue até o mundo do mundo aparecer. Lá, vá para a direita e inicie esse nível. Jogue esse nível um pouco e salve um punhado ou mais dos estados através do File -> Save -> State nos states/train do subdiretório. O nome não importa, mas eles precisam terminar em .lsmv . (Tente espalhar os estados por todo o nível.)
Inicie o servidor de exibição abrindo uma janela de comando e usando th -ldisplay.start . Se isso não funcionar, você ainda não instalou o visor, use luarocks install display .
Abra a saída do servidor de exibição abrindo http://localhost:8000/ no seu navegador.
Agora inicie o treinamento via Tools -> Run Lua script... e selecione train.lua .
Tempo esperado de treinamento: talvez 10 horas, menos com bom hardware. (Cerca de 0,5 milhão de ações.)
Você pode interromper o treinamento via Tools -> Reset Lua VM .
Se você deseja reiniciar o treinamento do zero (por exemplo, uma segunda execução), precisará excluir os arquivos em learned/ . Observe que você pode manter a memória de reprodução ( memory.sqlite ) e treinar uma nova rede com ela.

Você pode testar o modelo usando test.lua . Não espere que isso jogue incrivelmente bem. O agente ainda morrerá muito, ainda mais se você terminou o treinamento em um conjunto ruim de parâmetros.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-02-12
tamanho 526.93KB
Vindo de Github

Aplicativos Relacionados

Na frente dele

2024-07-08
Aplicativo Libu Libu ai

2024-06-28
Criador de IA

2023-04-23
Jaspe IA

2023-04-12
Sim, IA

2022-08-16
IA alienígena

2022-07-29

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
Sunamu

Outro código-fonte

Release 2.2.0
MySchedule.py

Outro código-fonte

Updates to the fetching of week codes
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos