Equipes de pesquisa da Universidade de Ciência e Tecnologia de Hong Kong e da Universidade de Ciência e Tecnologia da China desenvolveram o modelo GameGen-X, um modelo de conversor de difusão que pode gerar e controlar interativamente os vídeos de jogos do mundo aberto. O GameGen-X pode não apenas gerar vídeos de jogos que incluem personagens inovadores, ambientes dinâmicos e ações complexas, mas também ajustar o conteúdo do jogo em tempo real de acordo com as instruções multimodais do usuário (como operações de texto e teclado), permitindo que os usuários experimentem a diversão de projetar Jogos. Este resultado de pesquisa marca um grande avanço na IA no campo do desenvolvimento de jogos e oferece novas possibilidades para a criação de conteúdo de jogos.
O GameGen-X pode gerar vídeos de jogos do mundo aberto por si só, que podem simular várias funções de mecanismo de jogo, incluindo a geração de personagens inovadores, ambientes dinâmicos, ações complexas e diversos eventos, e também pode interagir com você, permitindo que você experimente o prazer de ser um planejamento de jogo.
Um dos destaques do GameGen-X é sua controlabilidade na interação. Ele pode prever e alterar o conteúdo futuro com base nos clipes atuais de jogos, permitindo assim a simulação de jogabilidade.
Os usuários podem influenciar o conteúdo gerado por meio de sinais de controle multimodal, como instruções de texto estruturadas e controle do teclado, alcançando o controle sobre a interação do caractere e o conteúdo da cena.
Para treinar o GameGen-X, os pesquisadores também construíram o primeiro conjunto de dados de vídeo de videogame de videogame Open Green, Ogamedata. Esse conjunto de dados contém mais de 1 milhão de videoclipes de jogos diferentes de mais de 150 jogos e usa o GPT-4O para gerar descrições informativas de texto para ele.
O processo de treinamento do GameGen-X é dividido em dois estágios: modelo básico de pré-treinamento e instrução fino. Na primeira fase, o modelo é pré-treinado por meio de tarefas de geração de texto para vídeo e continuação de vídeo, permitindo gerar vídeos de jogos de alta qualidade e domínio aberto.
Na segunda fase, para obter controlabilidade interativa, os pesquisadores criaram o módulo InstructNet, que integra especialistas em sinal de controle multimodal relacionados ao jogo.
O InstructNet permite que os modelos ajustem possíveis representações com base na entrada do usuário, unificando a interação do caractere e o controle de conteúdo da cena na geração de vídeo pela primeira vez. Durante a instrução, o ajuste fino, apenas o InstructNet é atualizado, enquanto o modelo básico pré-treinado é congelado, permitindo que o modelo integra a controlabilidade interativa sem perder a diversidade e a qualidade do conteúdo de vídeo gerado.
Os resultados experimentais mostram que o GameGen-X tem um bom desempenho na geração de conteúdo de jogo de alta qualidade e fornece excelente controle sobre o ambiente e os personagens, superior a outros modelos de código aberto e de negócios.
Obviamente, essa IA ainda está em sua infância e ainda há um longo caminho a percorrer antes de substituir verdadeiramente o planejamento do jogo. Mas seu surgimento, sem dúvida, traz novas possibilidades ao desenvolvimento de jogos. Ele fornece uma nova abordagem para o design e desenvolvimento de conteúdo de jogos, demonstrando o potencial de modelos generativos como uma ferramenta auxiliar para a tecnologia de renderização tradicional, integrando efetivamente a geração criativa e as funções interativas, trazendo novas coisas para futuras possibilidades de desenvolvimento de jogos.
Endereço do projeto: https://gamegen-x.github.io/
Embora a GameGen-X ainda esteja em seus estágios iniciais de desenvolvimento, seu excelente desempenho na geração de vídeos e controle de interação indica uma perspectiva ampla para a aplicação da tecnologia de IA na indústria de jogos. No futuro, espera-se que o GameGen-X se torne um bom assistente de desenvolvedores de jogos e promova o desenvolvimento inovador da indústria de jogos.