La generación de escenas de juegos siempre ha sido un gran desafío en el campo del desarrollo de juegos. Cómo superar las limitaciones de los escenarios existentes y crear un mundo de juego más diverso e innovador es una dirección que los desarrolladores continúan explorando. Recientemente, la Universidad de Hong Kong y Kuaishou Technology colaboraron para desarrollar un marco innovador llamado GameFactory, que proporciona una nueva idea para resolver este problema. Este marco utiliza tecnología avanzada de modelo de difusión de video, combinada con una estrategia de entrenamiento única de tres etapas, para generar escenas de juego nuevas y diversas, mejorando significativamente la eficiencia y la creatividad de la generación de videos de juegos.
En el campo del desarrollo de juegos, la diversidad e innovación de escenarios siempre ha sido un problema difícil. Recientemente, la Universidad de Hong Kong y Kuaishou Technology desarrollaron conjuntamente un marco innovador llamado GameFactory, con el objetivo de resolver el problema de la generalización de escenas en la generación de videos de juegos. Este marco aprovecha modelos de difusión de video previamente entrenados que se pueden entrenar con datos de video de dominio abierto para generar escenarios de juego nuevos y diversos.
Como tecnología de generación avanzada, el modelo de difusión de vídeo ha mostrado un gran potencial en los campos de la generación de vídeo y la simulación física en los últimos años. Estos modelos pueden responder a las entradas del usuario, como el teclado y el mouse, al igual que las herramientas de generación de video, y luego generar las escenas de juego correspondientes. Sin embargo, la generalización de escenas, que se refiere a la capacidad de crear escenarios de juego completamente nuevos además de los existentes, sigue siendo un desafío importante en esta área. Aunque recopilar una gran cantidad de conjuntos de datos de video con anotaciones de acciones es una forma directa de resolver este problema, este método requiere mucho tiempo y trabajo, especialmente poco práctico en escenarios de dominio abierto.
El marco GameFactory se lanzó para resolver este problema. A través de modelos de difusión de video previamente entrenados, GameFactory puede evitar la dependencia excesiva de conjuntos de datos de juegos específicos y respaldar la generación de diversos escenarios de juegos. Además, para cerrar la brecha entre el conocimiento previo del dominio abierto y los conjuntos de datos de juegos limitados, GameFactory también adopta una estrategia de capacitación única en tres etapas.
En la primera etapa, se utiliza LoRA (adaptación de rango bajo) para ajustar el modelo previamente entrenado para adaptarlo al dominio del juego específico conservando los parámetros originales. La segunda etapa congela los parámetros previos al entrenamiento y se enfoca en entrenar el módulo de control de movimiento para evitar confusión entre estilo y control. Finalmente, en la tercera etapa, se eliminan los pesos de LoRA y se conservan los parámetros del módulo de control de movimiento, lo que permite al sistema generar videos de juegos controlados en diferentes escenarios de dominio abierto.
Los investigadores también evaluaron la efectividad de diferentes mecanismos de control y descubrieron que el mecanismo de atención cruzada funcionó mejor al procesar señales de control discretas, como la entrada del teclado, mientras que el método de empalme funcionó mejor al procesar señales de movimiento del mouse. GameFactory también admite el control de movimiento autorregresivo, lo que permite la generación de vídeos de juego interactivos de duración ilimitada. Además, el equipo de investigación también lanzó el conjunto de datos de video de anotaciones de acciones de alta calidad GF-Minecraft para la capacitación y evaluación del marco.
Documento: https://arxiv.org/abs/2501.08325
Destacar:
El marco GameFactory fue desarrollado conjuntamente por la Universidad de Hong Kong y Kuaishou Technology para resolver el problema de la generalización de escenas en la generación de videos de juegos.
El marco utiliza modelos de difusión de video previamente entrenados para generar diversos escenarios de juego y adopta una estrategia de entrenamiento de tres etapas para mejorar el efecto.
Los investigadores también publicaron el conjunto de datos de video de anotaciones de acciones GF-Minecraft para respaldar la capacitación y evaluación de GameFactory.
El surgimiento del marco GameFactory ha brindado nuevas posibilidades al desarrollo de juegos. Sus capacidades eficientes de generación de escenas y su adaptabilidad de dominio abierto promoverán en gran medida el desarrollo de la industria de los juegos y brindarán a los jugadores una experiencia de juego más colorida. En el futuro, esperamos que el marco de GameFactory se mejore aún más para proporcionar herramientas más potentes a los desarrolladores de juegos.