Cet article présente une nouvelle méthode d'apprentissage en renforcement appelé Diamond, qui utilise des modèles de diffusion pour construire des modèles mondiaux pour améliorer l'efficacité de l'échantillon. L'échantillon inefficace des méthodes d'apprentissage traditionnelles de renforcement limite leur application dans le monde réel et diamant résout efficacement ce problème en formant des agents d'apprentissage de renforcement dans le modèle du monde de la diffusion. Diamond a obtenu des résultats remarquables dans la référence Atari 100K et a démontré son potentiel en tant que moteur de jeu neural interactif.
L'apprentissage par renforcement a réussi de nombreux succès ces dernières années, mais son inefficacité de la taille de l'échantillon limite son application dans le monde réel. Le modèle mondial, en tant que modèle de génération environnementale, donne l'espoir de résoudre ce problème. Il peut agir comme un environnement de simulation pour former des agents d'apprentissage du renforcement avec une efficacité d'échantillon plus élevée.
Actuellement, la plupart des modèles mondiaux simulent la dynamique environnementale à travers des séquences discrètes de variables latentes. Cependant, cette méthode de compression en représentations discrètes compactes peut ignorer les détails visuels qui sont essentiels à l'apprentissage du renforcement.
Dans le même temps, les modèles de diffusion sont devenus la méthode dominante dans le domaine de la génération d'images, ce qui remet en question la méthode traditionnelle de modélisation des variables latentes discrètes. Inspirés par cela, les chercheurs ont proposé une nouvelle approche appelée Diamond (Environmental Dream Diffusion Model), un agent d'apprentissage de renforcement formé à un modèle mondial de diffusion. Le diamant a fait des choix clés dans la conception pour assurer des modèles de diffusion efficaces et stables sur une longue période de temps.
Diamond a marqué un score de normalisation humain moyen de 1,46 dans le célèbre référence ATARI100K, le meilleur score pour les agents entièrement formés dans le modèle mondial. En outre, l'avantage de fonctionner dans l'espace d'image est que le modèle du monde de diffusion peut remplacer directement l'environnement, ce qui est ainsi une meilleure compréhension du comportement du modèle mondial et des agents. Les chercheurs ont constaté que certaines améliorations des performances du jeu découlent d'une meilleure modélisation des détails visuels clés.
Le succès de Diamond est dû au choix du cadre EDM (élucider l'espace de conception des modèles génératifs basés sur la diffusion). Par rapport à la DDPM traditionnelle (modèles probabilistes de diffusion de débrassement), l'EDM présente une stabilité plus élevée avec moins d'étapes de débraillé, évitant les erreurs cumulatives graves dans le modèle sur une longue période.
De plus, Diamond démontre également la capacité de son modèle de diffusion mondiale à être un moteur de jeu neuronal interactif. En s'entraînant sur 87 heures de contre-fronts statiques: les données mondiales du jeu offensive, Diamond a généré avec succès un moteur de jeu neuronal de la carte II interactive.
À l'avenir, Diamond peut encore améliorer ses performances en intégrant des mécanismes de mémoire plus avancés, tels que le transformateur autorégressif. De plus, l'intégration des prévisions de récompense / terminaison dans le modèle de diffusion est également une direction à explorer.
Adresse papier: https://arxiv.org/pdf/2405.12399
En résumé, Diamond fournit une nouvelle solution au problème d'efficacité de l'échantillon de l'apprentissage du renforcement, et son application réussie dans le domaine du jeu démontre son énorme potentiel. La direction de la recherche future mérite d'être prêtée attention, et je crois que Diamond continuera de promouvoir le développement du domaine d'apprentissage par renforcement.