L'apprentissage par renforcement limite son application en raison de la faible efficacité des échantillons, mais les modèles mondiaux en tant que modèles de génération d'environnement apportent l'espoir de résoudre ce problème. Il peut former efficacement des agents d'apprentissage par renforcement, mais la plupart des modèles mondiaux utilisent des séquences de variables latentes discrètes pour simuler la dynamique environnementale, qui peuvent ignorer les détails visuels critiques. L'éditeur de Downcodes vous propose une interprétation de DIAMOND (Ambient Dream Diffusion Model), qui utilise le modèle de diffusion pour former des agents d'apprentissage par renforcement et a obtenu d'excellents résultats au test de référence Atari 100k.
Actuellement, la plupart des modèles mondiaux simulent la dynamique environnementale au moyen de séquences de variables latentes discrètes. Cependant, cette méthode de compression en une représentation discrète et compacte peut ignorer les détails visuels qui sont cruciaux pour l'apprentissage par renforcement.
Dans le même temps, les modèles de diffusion sont devenus la méthode dominante dans le domaine de la génération d’images, remettant en question les méthodes traditionnelles de modélisation à variables latentes discrètes. Inspirés par cela, les chercheurs ont proposé une nouvelle méthode appelée DIAMOND (ambient dream diffusion model), qui est un agent d'apprentissage par renforcement formé dans un modèle mondial de diffusion. DIAMOND a fait des choix de conception clés pour garantir l'efficacité et la stabilité du modèle de diffusion sur de longues périodes.
DIAMOND a obtenu un score moyen normalisé par l'humain de 1,46 sur le célèbre benchmark Atari100k, le meilleur résultat pour un agent entièrement formé sur un modèle du monde. De plus, l’avantage d’opérer dans l’espace image est que le modèle du monde diffus peut se substituer directement à l’environnement, permettant une meilleure compréhension du modèle du monde et du comportement de l’agent. Les chercheurs ont découvert que les améliorations des performances dans certains jeux provenaient d’une meilleure modélisation des détails visuels clés.
Le succès de DIAMOND est dû au choix du framework EDM (Elucidating the Design Space of Diffusion-based Generative Models). Par rapport aux modèles probabilistes de diffusion de débruitage (DDPM) traditionnels, l'EDM présente une plus grande stabilité avec moins d'étapes de débruitage, évitant ainsi de graves erreurs cumulatives dans le modèle sur une longue période de temps.
De plus, DIAMOND a démontré la capacité de son modèle de monde diffus à servir de moteur de jeu neuronal interactif. En s'entraînant sur 87 heures de données de jeu statiques Counter-Strike: Global Offensive, DIAMOND a réussi à générer un moteur de jeu neuronal de carte interactive Dust II.
À l'avenir, DIAMOND pourra encore améliorer ses performances en intégrant des mécanismes de mémoire plus avancés, tels que les transformateurs autorégressifs. En outre, l’intégration des prédictions de récompense/fin dans les modèles de diffusion est également une voie à explorer.
Adresse papier : https://arxiv.org/pdf/2405.12399
L'émergence de DIAMOND a apporté de nouvelles avancées dans le domaine de l'apprentissage par renforcement. Ses excellentes performances dans les jeux Atari et "Counter-Strike" démontrent le grand potentiel du modèle de diffusion dans la construction de modèles mondiaux efficaces. À l'avenir, avec le développement ultérieur de la technologie, DIAMOND et ses technologies dérivées devraient être appliquées dans davantage de domaines et favoriser l'avancement de la technologie de l'intelligence artificielle. Dans l’attente de plus de résultats de recherche sur l’apprentissage par renforcement basés sur des modèles de diffusion.