CogVideoX v1.5, la última versión del modelo de vídeo de código abierto de Zhipu AI, se pone en línea con un "nuevo vídeo claro" 4K de 10 segundos

Autor：Eve Cole Fecha de actualización：2024-12-01 09:00:01

El editor de Downcodes informa: El equipo técnico de Zhipu lanzó hoy un importante modelo de generación de video CogVideoX v1.5 de código abierto, que es otra actualización importante de la serie desde agosto. La nueva versión ha logrado un avance significativo en las capacidades de generación de video, admite videos más largos, resoluciones más altas y velocidades de cuadros más suaves, y se combina con el modelo de efectos de sonido CogSound recientemente lanzado para crear una plataforma de "nuevo video claro" para brindar a los usuarios mejores videos Premium. experiencia de creación. Esta actualización no solo mejora la calidad del video, sino que también mejora la capacidad del modelo para comprender semántica compleja, brindando a los desarrolladores herramientas más poderosas.

Se entiende que esta actualización ha mejorado enormemente las capacidades de generación de video, incluida la compatibilidad con longitudes de video de 5 y 10 segundos, resolución de 768P y capacidades de generación de 16 cuadros. Al mismo tiempo, el modelo I2V (imagen a vídeo) también admite cualquier relación de tamaño, lo que mejora aún más la capacidad de comprender semántica compleja.

CogVideoX v1.5 contiene dos modelos principales: CogVideoX v1.5-5B y CogVideoX v1.5-5B-I2V, que están diseñados para proporcionar a los desarrolladores herramientas de generación de vídeo más potentes.

Lo que es aún más notable es que CogVideoX v1.5 se lanzará simultáneamente en la plataforma Qingying y se combinará con el modelo de efectos de sonido CogSound recientemente lanzado para convertirse en el "Nuevo Qingying" . New Qingying brindará una serie de servicios especiales, incluidas mejoras significativas en la calidad del video, el rendimiento estético y la racionalidad del movimiento, y admitirá la generación de videos de ultra alta definición de 10 segundos, 4K y 60 cuadros.

La introducción oficial es la siguiente:

Mejora de la calidad: se ha mejorado significativamente la capacidad de los videos de Tusheng en términos de calidad, rendimiento estético, racionalidad del movimiento y comprensión semántica de palabras complejas.
Resolución Ultra-HD: admite la generación de vídeos de ultra alta definición de 10, 4K y 60 fotogramas.
Relación variable: admite cualquier relación para adaptarse a diferentes escenarios de reproducción.
Salida multicanal: el mismo comando/imagen puede generar 4 vídeos a la vez.
Vídeo de IA con efectos de sonido: Xinqingying puede generar efectos de sonido que coincidan con la imagen.

En términos de procesamiento de datos, el equipo de CogVideoX se enfoca en mejorar la calidad de los datos, desarrollar un marco de filtrado automatizado para filtrar datos de video incorrectos y lanzar el modelo de comprensión de video de extremo a extremo CogVLM2-caption para generar descripciones de contenido precisas. Este modelo puede manejar eficazmente instrucciones complejas y garantizar que el vídeo generado coincida con las necesidades del usuario.

Para mejorar la coherencia del contenido, CogVideoX utiliza una eficiente tecnología de codificador automático variacional tridimensional (3D VAE), que reduce significativamente los costos y la dificultad de la capacitación. Además, el equipo también desarrolló una arquitectura Transformer que integra las tres dimensiones de texto, tiempo y espacio. Al eliminar el módulo de atención cruzada tradicional, se mejora el efecto interactivo del texto y el video y se mejora la calidad de la generación de video.

En el futuro, el equipo técnico de Zhipu continuará ampliando la cantidad de datos y la escala del modelo, y explorará una arquitectura de modelo más eficiente para lograr una mejor experiencia de generación de video. El código abierto de CogVideoX v1.5 no sólo proporciona a los desarrolladores herramientas potentes, sino que también inyecta nueva vitalidad en el campo de la creación de vídeos.

Código: https://github.com/thudm/cogvideo

Modelo: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

Destacar:

La nueva versión de CogVideoX v1.5 es de código abierto y admite video de 5/10 segundos, resolución de 768P y capacidades de generación de 16 cuadros.

Se lanza la nueva plataforma Qingying, combinada con el modelo de efectos de sonido CogSound, para proporcionar generación de video 4K de ultra alta definición.

El procesamiento de datos y la innovación de algoritmos garantizan la calidad y coherencia de los vídeos generados.

Con todo, el código abierto de CogVideoX v1.5 y el lanzamiento de la nueva plataforma Qingying marcan un paso importante en la tecnología de generación de videos de IA, brindando herramientas más poderosas y un espacio creativo más amplio para desarrolladores y creadores. Esperamos ver más aplicaciones interesantes basadas en CogVideoX en el futuro.