Este artículo presenta un nuevo método de aprendizaje de refuerzo llamado Diamond, que utiliza modelos de difusión para construir modelos mundiales para mejorar la eficiencia de la muestra. La muestra ineficiente de los métodos de aprendizaje de refuerzo tradicional limita su aplicación en el mundo real, y Diamond resuelve efectivamente este problema al capacitar a los agentes de aprendizaje de refuerzo en el modelo de difusión mundial. Diamond logró resultados notables en el punto de referencia Atari 100k y demostró su potencial como un motor de juegos neuronal interactivo.
El aprendizaje de refuerzo ha logrado muchos éxitos en los últimos años, pero su ineficiencia en el tamaño de la muestra limita su aplicación en el mundo real. El modelo mundial, como modelo de generación ambiental, proporciona esperanza para resolver este problema. Puede actuar como un entorno de simulación para capacitar a los agentes de aprendizaje de refuerzo con mayor eficiencia de muestra.
Actualmente, la mayoría de los modelos mundiales simulan la dinámica ambiental a través de secuencias discretas de variables latentes. Sin embargo, este método de compresión en representaciones discretas compactas puede ignorar los detalles visuales que son críticos para el aprendizaje de refuerzo.
Al mismo tiempo, los modelos de difusión se han convertido en el método dominante en el campo de la generación de imágenes, desafiando el método tradicional de modelado de variables latentes discretos. Inspirados en esto, los investigadores propusieron un nuevo enfoque llamado Diamond (Modelo de difusión de sueños ambientales), un agente de aprendizaje de refuerzo capacitado en un modelo mundial de difusión. Diamond tomó decisiones clave en el diseño para garantizar modelos de difusión eficientes y estables durante un largo período de tiempo.
Diamond obtuvo un puntaje promedio de estandarización humana de 1.46 en el famoso punto de referencia ATARI100K, el mejor puntaje para agentes entrenados por completo en el modelo mundial. Además, la ventaja de operar en el espacio de imágenes es que el modelo de difusión mundial puede reemplazar directamente el entorno, mejor comprensión del comportamiento del modelo y los agentes mundiales. Los investigadores encontraron que algunas mejoras de rendimiento del juego provienen del mejor modelado de detalles visuales clave.
El éxito de Diamond se debe a la elección del marco EDM (dilucidar el espacio de diseño de los modelos generativos basados en difusión). En comparación con el DDPM tradicional (modelos probabilísticos de difusión de difusión), EDM exhibe una mayor estabilidad con menos pasos de renovación, evitando errores acumulativos graves en el modelo durante un largo período de tiempo.
Además, Diamond también demuestra la capacidad de su modelo de difusión mundial para ser un motor de juego neuronal interactivo. Al entrenar en 87 horas de contra-strike: datos de juegos ofensivos globales, Diamond generó con éxito un motor de juego neuronal de mapa de polvo II interactivo.
En el futuro, Diamond puede mejorar aún más su rendimiento integrando mecanismos de memoria más avanzados, como el transformador autorregresivo. Además, la integración de las predicciones de recompensa/terminación en el modelo de difusión también es una dirección que vale la pena explorar.
Dirección en papel: https://arxiv.org/pdf/2405.12399
En resumen, Diamond proporciona una nueva solución al problema de eficiencia de la muestra del aprendizaje de refuerzo, y su aplicación exitosa en el campo de juegos demuestra su enorme potencial. Vale la pena prestar atención a la futura dirección de investigación, y creo que Diamond continuará promoviendo el desarrollo del campo de aprendizaje de refuerzo.