La Universidad de Pekín colaboró con el equipo de Kuaishou AI para desarrollar un nuevo marco de generación de video llamado VideoTetris, que resolvió con éxito el problema de la generación de video complejo y su rendimiento superó a modelos comerciales como Pika y Gen-2. Este marco define de manera innovadora tareas combinadas de generación de video, puede generar videos con precisión de acuerdo con instrucciones complejas y admite la generación de videos largos e instrucciones progresivas de múltiples objetos, resolviendo efectivamente las deficiencias de los modelos existentes en el procesamiento de instrucciones y detalles complejos, como la localización precisa de múltiples. objetos y manteniendo sus detalles característicos.
Noticias de ChinaZ.com el 17 de junio: la Universidad de Pekín y el equipo de IA de Kuaishou colaboraron para superar con éxito el problema de la generación de videos complejos. Propusieron un nuevo marco llamado VideoTetris, que puede combinar fácilmente varios detalles como un rompecabezas para generar videos con alta dificultad e instrucciones complejas. Este marco supera a los modelos comerciales como Pika y Gen-2 en tareas complejas de generación de video.
El marco VideoTetris define la tarea de generación de video combinada por primera vez, incluidas dos subtareas: 1) generación de video siguiendo instrucciones combinadas complejas; 2) generación de video larga siguiendo instrucciones progresivas combinadas de múltiples objetos; El equipo descubrió que casi todos los modelos comerciales y de código abierto existentes no generaban vídeos correctos. Por ejemplo, si ingresa "un lindo perro marrón a la izquierda y un gato durmiendo una siesta al sol a la derecha", el video resultante a menudo fusiona información sobre los dos objetos, lo que parece extraño.
Por el contrario, VideoTetris conserva con éxito toda la información de ubicación y las funciones detalladas. En la generación de videos largos, admite instrucciones más complejas, como "Transición de una linda ardilla marrón sobre un montón de avellanas a una linda ardilla marrón y una linda ardilla blanca sobre un montón de avellanas". La secuencia de los vídeos generados es coherente con las instrucciones de entrada y las dos ardillas pueden intercambiar alimentos de forma natural.
El marco VideoTetris adopta el método de difusión combinada espaciotemporal. Primero, deconstruye las indicaciones de texto según el tiempo y asigna diferente información de las indicaciones a diferentes cuadros de video. Luego, la dimensión espacial se deconstruye en cada cuadro para asignar diferentes objetos a diferentes áreas de video. Finalmente, la generación eficiente de instrucciones combinadas se logra mediante la atención cruzada espacio-temporal.
Para generar videos largos de mayor calidad, el equipo también propuso un método de preprocesamiento de datos de entrenamiento mejorado para hacer que la generación de videos largos sea más dinámica y estable. Además, se introduce un mecanismo de atención del marco de referencia y se utiliza VAE nativo para codificar la información del marco anterior, que es diferente de otros modelos que utilizan codificación CLIP, logrando así una mejor coherencia del contenido.
El resultado de la optimización es que los videos largos ya no tienen matices de color de gran área, pueden adaptarse mejor a instrucciones complejas y los videos generados son más dinámicos y más naturales. El equipo también introdujo nuevos indicadores de evaluación VBLIP-VQA y VUnidet, extendiendo el método de evaluación de generación combinada a la dimensión de vídeo por primera vez.
Las pruebas experimentales muestran que en términos de capacidades combinadas de generación de video, el modelo VideoTetris supera a todos los modelos de código abierto, incluso a los modelos comerciales como Gen-2 y Pika. Se informa que el código será completamente de código abierto.
Dirección del proyecto: https://top.aibase.com/tool/videotetris
Con todo, el marco VideoTetris ha logrado avances significativos en el campo de la generación de videos complejos, y su eficiente método de difusión de combinación espaciotemporal y sus innovadores indicadores de evaluación brindan una nueva dirección para el desarrollo de la futura tecnología de generación de videos. El código abierto de este proyecto también proporciona recursos valiosos a más investigadores y promueve un mayor desarrollo en este campo. Esperamos que VideoTetris pueda desempeñar un papel en más escenarios de aplicaciones en el futuro.