A geração de cenas de jogos sempre foi um grande desafio no campo do desenvolvimento de jogos. Como romper as limitações dos cenários existentes e criar um mundo de jogo mais diversificado e inovador é uma direção que os desenvolvedores continuam a explorar. Recentemente, a Universidade de Hong Kong e a Kuaishou Technology colaboraram para desenvolver um framework inovador chamado GameFactory, que fornece uma nova ideia para resolver este problema. Esta estrutura utiliza tecnologia avançada de modelo de difusão de vídeo, combinada com uma estratégia exclusiva de treinamento em três estágios, para gerar cenas de jogos novas e diversas, melhorando significativamente a eficiência e a criatividade da geração de vídeos de jogos.
No campo do desenvolvimento de jogos, a diversidade e inovação de cenários sempre foi um problema difícil. Recentemente, a Universidade de Hong Kong e a Kuaishou Technology desenvolveram em conjunto um framework inovador denominado GameFactory, com o objetivo de resolver o problema de generalização de cenas na geração de vídeos de jogos. Esta estrutura aproveita modelos de difusão de vídeo pré-treinados que podem ser treinados em dados de vídeo de domínio aberto para gerar cenários de jogos novos e diversos.
Por ser uma tecnologia de geração avançada, o modelo de difusão de vídeo tem demonstrado grande potencial nas áreas de geração de vídeo e simulação física nos últimos anos. Esses modelos podem responder às entradas do usuário, como teclado e mouse, como ferramentas de geração de vídeo, para gerar imagens de jogo correspondentes. No entanto, a generalização de cenas, que se refere à capacidade de criar cenários de jogo inteiramente novos, além dos existentes, continua a ser um desafio significativo nesta área. Embora a coleta de um grande número de conjuntos de dados de vídeo com anotações de ação seja uma maneira direta de resolver esse problema, esse método é demorado e trabalhoso, especialmente impraticável em cenários de domínio aberto.
O framework GameFactory foi lançado para resolver este problema. Através de modelos de difusão de vídeo pré-treinados, a GameFactory é capaz de evitar a dependência excessiva de conjuntos de dados de jogos específicos e apoiar a geração de diversos cenários de jogos. Além disso, para preencher a lacuna entre o conhecimento prévio de domínio aberto e os conjuntos limitados de dados de jogos, a GameFactory também adota uma estratégia exclusiva de treinamento em três estágios.
No primeiro estágio, LoRA (adaptação de baixa classificação) é usado para ajustar o modelo pré-treinado para adaptá-lo ao domínio específico do jogo, mantendo os parâmetros originais. A segunda fase congela os parâmetros de pré-treinamento e concentra-se no treinamento do módulo de controle de movimento para evitar confusão entre estilo e controle. Por fim, na terceira etapa, os pesos LoRA são removidos e os parâmetros do módulo de controle de movimento são mantidos, permitindo ao sistema gerar vídeos de jogos controlados em diferentes cenários de domínio aberto.
Os pesquisadores também avaliaram a eficácia de diferentes mecanismos de controle e descobriram que o mecanismo de atenção cruzada teve melhor desempenho ao processar sinais de controle discretos, como entrada do teclado, enquanto o método de emenda teve melhor desempenho ao processar sinais de movimento do mouse. GameFactory também suporta controle de movimento autorregressivo, permitindo a geração de vídeos de jogo interativos de duração ilimitada. Além disso, a equipe de pesquisa também lançou o conjunto de dados de vídeo de anotação de ação de alta qualidade GF-Minecraft para treinamento e avaliação da estrutura.
Artigo: https://arxiv.org/abs/2501.08325
Destaque:
A estrutura GameFactory foi desenvolvida em conjunto pela Universidade de Hong Kong e pela Kuaishou Technology para resolver o problema de generalização de cenas na geração de vídeos de jogos.
A estrutura utiliza modelos de difusão de vídeo pré-treinados para gerar diversos cenários de jogo e adota uma estratégia de treinamento de três estágios para melhorar o efeito.
Os pesquisadores também lançaram o conjunto de dados de vídeo de anotação de ação GF-Minecraft para apoiar o treinamento e avaliação do GameFactory.
O surgimento da estrutura GameFactory trouxe novas possibilidades para o desenvolvimento de jogos. Suas capacidades eficientes de geração de cenas e adaptabilidade de domínio aberto promoverão enormemente o desenvolvimento da indústria de jogos e proporcionarão aos jogadores uma experiência de jogo mais colorida. No futuro, esperamos que a estrutura GameFactory seja melhorada para fornecer ferramentas mais poderosas para desenvolvedores de jogos.