La génération de scènes de jeu a toujours été un défi majeur dans le domaine du développement de jeux. Comment dépasser les limites des scénarios existants et créer un monde de jeu plus diversifié et innovant est une direction que les développeurs continuent d'explorer. Récemment, l'Université de Hong Kong et Kuaishou Technology ont collaboré pour développer un cadre innovant appelé GameFactory, qui propose une nouvelle idée pour résoudre ce problème. Ce cadre utilise une technologie avancée de modèle de diffusion vidéo, combinée à une stratégie de formation unique en trois étapes, pour générer des scènes de jeu nouvelles et diversifiées, améliorant ainsi considérablement l'efficacité et la créativité de la génération de vidéos de jeux.
Dans le domaine du développement de jeux, la diversité et l’innovation des scénarios ont toujours été un problème difficile. Récemment, l'Université de Hong Kong et Kuaishou Technology ont développé conjointement un cadre innovant appelé GameFactory, visant à résoudre le problème de la généralisation des scènes dans la génération de jeux vidéo. Ce cadre exploite des modèles de diffusion vidéo pré-entraînés qui peuvent être entraînés sur des données vidéo en domaine ouvert pour générer des scénarios de jeu nouveaux et diversifiés.
En tant que technologie de génération avancée, le modèle de diffusion vidéo a montré ces dernières années un grand potentiel dans les domaines de la génération vidéo et de la simulation physique. Ces modèles peuvent répondre aux entrées de l'utilisateur, telles que le clavier et la souris, tout comme les outils de génération vidéo, puis générer des scènes de jeu correspondantes. Cependant, la généralisation des scènes, qui fait référence à la capacité de créer des scénarios de jeu entièrement nouveaux au-delà de ceux existants, reste un défi important dans ce domaine. Bien que la collecte d’une grande quantité d’ensembles de données vidéo annotées par des actions soit un moyen direct de résoudre ce problème, cette méthode prend du temps et demande beaucoup de travail, et est particulièrement peu pratique dans les scénarios de domaine ouvert.
Le framework GameFactory a été lancé pour résoudre ce problème. Grâce à des modèles de diffusion vidéo pré-entraînés, GameFactory est en mesure d'éviter une dépendance excessive à l'égard d'ensembles de données de jeu spécifiques et de prendre en charge la génération de divers scénarios de jeu. De plus, pour combler le fossé entre les connaissances préalables du domaine ouvert et les ensembles de données de jeu limités, GameFactory adopte également une stratégie de formation unique en trois étapes.
Dans la première étape, LoRA (low-rank adaptation) est utilisée pour affiner le modèle pré-entraîné afin de l'adapter au domaine spécifique du jeu tout en conservant les paramètres d'origine. La deuxième étape fige les paramètres de pré-entraînement et se concentre sur l'entraînement du module de contrôle de mouvement pour éviter toute confusion entre style et contrôle. Enfin, lors de la troisième étape, les poids LoRA sont supprimés et les paramètres du module de contrôle de mouvement sont conservés, permettant au système de générer des vidéos de jeu contrôlées dans différents scénarios de domaine ouvert.
Les chercheurs ont également évalué l'efficacité de différents mécanismes de contrôle et ont constaté que le mécanisme d'attention croisée fonctionnait mieux lors du traitement de signaux de contrôle discrets tels que la saisie au clavier, tandis que la méthode d'épissage fonctionnait mieux lors du traitement des signaux de mouvement de la souris. GameFactory prend également en charge le contrôle de mouvement autorégressif, permettant la génération de vidéos de jeu interactives d'une durée illimitée. En outre, l’équipe de recherche a également publié l’ensemble de données vidéo d’annotation d’action de haute qualité GF-Minecraft pour la formation et l’évaluation du cadre.
Article : https://arxiv.org/abs/2501.08325
Souligner:
Le framework GameFactory a été développé conjointement par l'Université de Hong Kong et Kuaishou Technology pour résoudre le problème de la généralisation des scènes dans la génération de jeux vidéo.
Le cadre utilise des modèles de diffusion vidéo pré-entraînés pour générer divers scénarios de jeu et adopte une stratégie de formation en trois étapes pour améliorer l'effet.
Les chercheurs ont également publié l’ensemble de données vidéo d’annotation d’action GF-Minecraft pour soutenir la formation et l’évaluation de GameFactory.
L'émergence du framework GameFactory a apporté de nouvelles possibilités au développement de jeux. Ses capacités efficaces de génération de scènes et son adaptabilité en domaine ouvert favoriseront grandement le développement de l'industrie du jeu et offriront aux joueurs une expérience de jeu plus colorée. À l’avenir, nous prévoyons que le framework GameFactory sera encore amélioré pour fournir des outils plus puissants aux développeurs de jeux.