O aprendizado por reforço limita sua aplicação devido à baixa eficiência da amostra, mas modelos mundiais como modelos de geração de ambiente trazem esperança para resolver esse problema. Ele pode treinar eficientemente agentes de aprendizagem por reforço, no entanto, a maioria dos modelos mundiais usa sequências variáveis latentes discretas para simular a dinâmica ambiental, que pode ignorar detalhes visuais críticos. O editor de Downcodes traz para você uma interpretação do DIAMOND (Ambient Dream Diffusion Model), que utiliza o modelo de difusão para treinar agentes de aprendizagem por reforço e obteve excelentes resultados no teste de benchmark Atari 100k.
Atualmente, a maioria dos modelos mundiais simula a dinâmica ambiental por meio de sequências discretas de variáveis latentes. No entanto, este método de compressão em uma representação compacta e discreta pode ignorar detalhes visuais que são cruciais para a aprendizagem por reforço.
Ao mesmo tempo, os modelos de difusão tornaram-se o método dominante no campo da geração de imagens, desafiando os métodos tradicionais de modelagem de variáveis latentes discretas. Inspirados nisso, os pesquisadores propuseram um novo método chamado DIAMOND (modelo de difusão de sonhos ambientais), que é um agente de aprendizagem por reforço treinado em um modelo de mundo de difusão. A DIAMOND fez escolhas importantes de design para garantir a eficiência e estabilidade do modelo de difusão durante longos períodos de tempo.
DIAMOND alcançou uma pontuação média normalizada por humanos de 1,46 no famoso benchmark Atari100k, o melhor resultado para um agente treinado inteiramente em um modelo do mundo. Além disso, a vantagem de operar no espaço de imagens é que o modelo de mundo difuso pode ser um substituto direto do ambiente, permitindo uma melhor compreensão do modelo de mundo e do comportamento do agente. Os pesquisadores descobriram que as melhorias de desempenho em alguns jogos resultam de uma melhor modelagem dos principais detalhes visuais.
O sucesso do DIAMOND se deve à escolha da estrutura EDM (Elucidating the Design Space of Diffusion-based Generative Models). Comparado com os DDPM (Modelos Probabilísticos de Difusão de Denoising) tradicionais, o EDM apresenta maior estabilidade com menos etapas de remoção de ruído, evitando sérios erros cumulativos no modelo durante um longo período de tempo.
Além disso, DIAMOND demonstrou a capacidade de seu modelo de mundo difuso servir como um mecanismo de jogo neural interativo. Ao treinar em 87 horas de dados estáticos do jogo Counter-Strike: Global Offensive, o DIAMOND gerou com sucesso um mecanismo de jogo neural de mapa Dust II interativo.
No futuro, o DIAMOND poderá melhorar ainda mais seu desempenho integrando mecanismos de memória mais avançados, como transformadores autorregressivos. Além disso, a integração de previsões de recompensa/rescisão em modelos de difusão também é uma direção que vale a pena explorar.
Endereço do artigo: https://arxiv.org/pdf/2405.12399
O surgimento do DIAMOND trouxe novos avanços no campo da aprendizagem por reforço. Seu excelente desempenho em jogos Atari e jogos “Counter-Strike” demonstra o grande potencial do modelo de difusão na construção de modelos mundiais eficientes. No futuro, com o desenvolvimento da tecnologia, espera-se que o DIAMOND e suas tecnologias derivadas sejam aplicados em mais campos e promovam o avanço da tecnologia de inteligência artificial. Ansioso por mais resultados de pesquisas sobre aprendizagem por reforço baseada em modelos de difusão.