Des équipes de recherche de l'Université des sciences et de la technologie de Hong Kong et de l'Université des sciences et de la technologie de Chine ont développé conjointement le modèle Gamegen-X, un modèle de convertisseur de diffusion qui peut générer et contrôler interactivement des vidéos de jeux en monde ouvert. Gamegen-X peut non seulement générer des vidéos de jeux qui incluent des personnages innovants, des environnements dynamiques et des actions complexes, mais également ajuster le contenu de jeu en temps réel en fonction des instructions multimodales de l'utilisateur (telles que les opérations de texte et de clavier), permettant aux utilisateurs de vivre le plaisir de concevoir jeux eux-mêmes. Ce résultat de recherche marque une percée majeure dans l'IA dans le domaine du développement du jeu et offre de nouvelles possibilités pour la création de contenu de jeu.
Gamegen-X peut générer des vidéos de jeux en monde ouvert en soi, qui peuvent simuler diverses fonctions de moteur de jeu, notamment en générant des personnages innovants, des environnements dynamiques, des actions complexes et des événements divers, et peuvent également interagir avec vous, vous permettant de ressentir le plaisir d'être une planification de jeu.
L'un des points forts de Gamegen-X est sa contrôlabilité dans l'interaction. Il peut prédire et modifier le contenu futur en fonction des clips de jeu actuels, permettant ainsi la simulation du gameplay.
Les utilisateurs peuvent influencer le contenu généré par des signaux de contrôle multimodaux, tels que les instructions de texte structurées et le contrôle du clavier, atteignant ainsi le contrôle de l'interaction des caractères et du contenu de la scène.
Pour former Gamegen-X, les chercheurs ont également construit le premier ensemble de données vidéo Open World Game Open, Ogamedata. Cet ensemble de données contient plus d'un million de clips vidéo de jeu différent de plus de 150 jeux et utilise GPT-4O pour générer des descriptions de texte informatives pour cela.
Le processus de formation de Gamegen-X est divisé en deux étapes: le modèle de base pré-formation et le réglage fin des instructions. Dans la première phase, le modèle est pré-formé par le biais de tâches de génération de texte à vidéo et de continuation vidéo, ce qui lui permet de générer des vidéos de jeux à domaine ouvert à longue séquence de haute qualité.
Dans la deuxième phase, afin d'atteindre la contrôlabilité interactive, les chercheurs ont conçu le module InstructNet, qui intègre des experts du signal de contrôle multimodal liés au jeu.
InstructNet permet aux modèles d'ajuster les représentations potentielles en fonction de la saisie de l'utilisateur, unificatrice de l'interaction des caractères et contrôle du contenu de la scène dans la génération de vidéos pour la première fois. Pendant l'instruction, le réglage fin, seul InstructNet est mis à jour, tandis que le modèle de base pré-formé est gelé, permettant au modèle d'intégrer la contrôlabilité interactive sans perdre la diversité et la qualité du contenu vidéo généré.
Les résultats expérimentaux montrent que Gamegen-X fonctionne bien dans la génération de contenu de jeu de haute qualité et offre un excellent contrôle sur l'environnement et les personnages, supérieur aux autres modèles open source et commerciaux.
Bien sûr, cette IA en est encore à ses balbutiements et il reste encore un long chemin à parcourir avant de remplacer vraiment la planification du jeu. Mais son émergence apporte sans aucun doute de nouvelles possibilités au développement du jeu. Il fournit une nouvelle approche de la conception et du développement du contenu de jeu, démontrant le potentiel des modèles génératifs en tant qu'outil auxiliaire pour la technologie de rendu traditionnel, intégrant efficacement la génération créative et les fonctions interactives, apportant de nouvelles choses aux futures possibilités de développement de jeu.
Adresse du projet: https://gamegen-x.github.io/
Bien que Gamegen-X en soit encore à ses premiers stades de développement, ses performances exceptionnelles dans la génération de vidéos de jeux et le contrôle d'interaction indiquent une large perspective pour l'application de la technologie de l'IA dans l'industrie du jeu. À l'avenir, Gamegen-X devrait devenir un bon assistant pour les développeurs de jeux et promouvoir le développement innovant de l'industrie du jeu.