El aprendizaje por refuerzo limita su aplicación debido a la baja eficiencia de la muestra, pero los modelos mundiales como modelos de generación de entornos brindan esperanza para resolver este problema. Puede entrenar eficientemente agentes de aprendizaje por refuerzo; sin embargo, la mayoría de los modelos mundiales utilizan secuencias de variables latentes discretas para simular la dinámica ambiental, que pueden ignorar detalles visuales críticos. El editor de Downcodes le ofrece una interpretación de DIAMOND (Ambient Dream Diffusion Model), que utiliza el modelo de difusión para entrenar agentes de aprendizaje por refuerzo y logró excelentes resultados en la prueba comparativa de Atari 100k.
Actualmente, la mayoría de los modelos mundiales simulan la dinámica ambiental a través de secuencias discretas de variables latentes. Sin embargo, este método de comprimir en una representación discreta compacta puede ignorar detalles visuales que son cruciales para el aprendizaje por refuerzo.
Al mismo tiempo, los modelos de difusión se han convertido en el método dominante en el campo de la generación de imágenes, desafiando los métodos tradicionales de modelado de variables latentes discretas. Inspirándose en esto, los investigadores propusieron un nuevo método llamado DIAMOND (modelo de difusión de sueños ambientales), que es un agente de aprendizaje por refuerzo entrenado en un modelo de mundo de difusión. DIAMOND ha tomado decisiones de diseño clave para garantizar la eficiencia y estabilidad del modelo de difusión durante largos períodos de tiempo.
DIAMOND logró una puntuación promedio normalizada por humanos de 1,46 en el famoso punto de referencia Atari100k, el mejor resultado para un agente entrenado completamente en un modelo del mundo. Además, la ventaja de operar en el espacio de imágenes es que el modelo de mundo difuso puede ser un sustituto directo del entorno, permitiendo una mejor comprensión del modelo de mundo y el comportamiento del agente. Los investigadores descubrieron que las mejoras en el rendimiento en algunos juegos se deben a un mejor modelado de detalles visuales clave.
El éxito de DIAMOND se debe a la elección del marco EDM (Elucidación del espacio de diseño de modelos generativos basados en difusión). En comparación con los DDPM (modelos probabilísticos de difusión de eliminación de ruido) tradicionales, el EDM muestra una mayor estabilidad con menos pasos de eliminación de ruido, lo que evita errores acumulativos graves en el modelo durante un largo período de tiempo.
Además, DIAMOND demostró la capacidad de su modelo de mundo difuso para servir como motor de juego neuronal interactivo. Al entrenar con 87 horas de datos estáticos del juego Counter-Strike: Global Offensive, DIAMOND generó con éxito un motor de juego neuronal de mapas interactivo Dust II.
En el futuro, DIAMOND puede mejorar aún más su rendimiento integrando mecanismos de memoria más avanzados, como Transformers autorregresivos. Además, la integración de predicciones de recompensa/terminación en modelos de difusión también es una dirección que vale la pena explorar.
Dirección del artículo: https://arxiv.org/pdf/2405.12399
La aparición de DIAMOND ha traído nuevos avances en el campo del aprendizaje por refuerzo. Su excelente desempeño en los juegos de Atari y "Counter-Strike" demuestra el gran potencial del modelo de difusión en la construcción de modelos mundiales eficientes. En el futuro, con el mayor desarrollo de la tecnología, se espera que DIAMOND y sus tecnologías derivadas se apliquen en más campos y promuevan el avance de la tecnología de inteligencia artificial. Esperamos más resultados de investigación sobre el aprendizaje por refuerzo basado en modelos de difusión.