Este artigo apresenta um novo método de aprendizado de reforço chamado Diamond, que usa modelos de difusão para construir modelos mundiais para melhorar a eficiência da amostra. A amostra ineficiente dos métodos tradicionais de aprendizado de reforço limita sua aplicação no mundo real, e o diamante resolve efetivamente esse problema, treinando agentes de aprendizado de reforço no modelo do mundo do mundo da difusão. O Diamond alcançou resultados notáveis no benchmark Atari 100K e demonstrou seu potencial como um mecanismo interativo de jogos neurais.
A aprendizagem de reforço alcançou muitos sucessos nos últimos anos, mas sua ineficiência no tamanho da amostra limita sua aplicação no mundo real. O modelo mundial, como modelo de geração ambiental, fornece esperança para resolver esse problema. Pode atuar como um ambiente de simulação para treinar agentes de aprendizado de reforço com maior eficiência da amostra.
Atualmente, a maioria dos modelos mundiais simula a dinâmica ambiental através de sequências discretas de variáveis latentes. No entanto, esse método de compactação em representações discretas compactas pode ignorar detalhes visuais críticos para reforçar o aprendizado.
Ao mesmo tempo, os modelos de difusão tornaram -se o método dominante no campo da geração de imagens, desafiando o método tradicional de modelagem variável latente discreta. Inspirados por isso, os pesquisadores propuseram uma nova abordagem chamada Diamond (Modelo de Difusão dos Sonhos Ambientais), um agente de aprendizado de reforço treinado em um modelo mundial de difusão. Diamond fez escolhas importantes no design para garantir modelos de difusão eficientes e estáveis por um longo período de tempo.
Diamond obteve uma pontuação média de padronização humana de 1,46 na famosa referência Atari100K, a melhor pontuação para agentes treinados inteiramente no modelo mundial. Além disso, a vantagem de operar no espaço da imagem é que o modelo do mundo da difusão pode substituir diretamente o ambiente, uma melhor compreensão do comportamento do modelo e dos agentes mundiais. Os pesquisadores descobriram que algumas melhorias no desempenho do jogo resultam da melhor modelagem dos principais detalhes visuais.
O sucesso de Diamond se deve à escolha da estrutura de EDM (elucidando o espaço de design de modelos generativos baseados em difusão). Comparado com o DDPM tradicional (modelos probabilísticos de difusão de denoising), o EDM exibe maior estabilidade com menos etapas de denoising, evitando erros cumulativos graves no modelo por um longo período de tempo.
Além disso, o Diamond também demonstra a capacidade de seu modelo de difusão do mundo de ser um mecanismo de jogo neural interativo. Ao treinar em 87 horas de contra-ataque estático: dados de jogos ofensivos globais, o Diamond gerou com sucesso um mecanismo interativo de jogo de jogo de mapa de poeira II.
No futuro, o Diamond pode melhorar ainda mais seu desempenho, integrando mecanismos de memória mais avançados, como o transformador autoregressivo. Além disso, a integração de previsões de recompensa/terminação no modelo de difusão também é uma direção que vale a pena explorar.
Endereço em papel: https://arxiv.org/pdf/2405.12399
Em resumo, o Diamond fornece uma nova solução para o problema de eficiência da amostra de aprendizado de reforço, e sua aplicação bem -sucedida no campo de jogos demonstra seu enorme potencial. A futura direção da pesquisa vale a pena prestar atenção, e acredito que o Diamond continuará promovendo o desenvolvimento do campo de aprendizado de reforço.