El modelo de generación de video Zhipu AI CogVideoX v1.5 de código abierto admite generación de video de 5/10 segundos

Autor：Eve Cole Fecha de actualización：2025-01-20 13:12:02

Beijing Zhipu Huazhang Technology Co., Ltd. ha lanzado CogVideoX v1.5. ¡La última versión de este modelo de generación de video es de código abierto! Desde su lanzamiento a principios de agosto, la serie CogVideoX se ha convertido rápidamente en una opción popular en el campo de la generación de video con su tecnología líder y características fáciles de usar para los desarrolladores. El editor de Downcodes se enteró de que CogVideoX v1.5 ha logrado mejoras significativas en las capacidades de generación de video y modelos de conversión de imagen a video (I2V), brindando a los usuarios una experiencia de creación de video mejor y más conveniente.

Este código abierto incluye dos modelos: CogVideoX v1.5-5B y CogVideoX v1.5-5B-I2V. Se lanzaron simultáneamente en la plataforma Qingying y se combinaron con el modelo de efectos de sonido CogSound para proporcionar un servicio de generación de video con IA más potente, compatible con una resolución de mayor definición, proporciones variables para adaptarse a diferentes escenas, salida multicanal y generación de video con IA. con efectos de sonido. A nivel técnico, CogVideoX v1.5 mejora significativamente la calidad de generación de video y la coherencia del contenido a través de tecnologías como el marco de detección automatizado, el modelo de comprensión de video de extremo a extremo CogVLM2-caption y el eficiente codificador automático variacional tridimensional (3D VAE). Además, la arquitectura Transformer desarrollada de forma independiente que integra las tres dimensiones de texto, tiempo y espacio optimiza aún más el rendimiento del modelo.

En términos de capacitación, CogVideoX v1.5 crea un marco de capacitación de modelo de difusión eficiente y logra un entrenamiento rápido de secuencias de video largas a través de una variedad de tecnologías de optimización del tiempo y computación paralela. Zhipu Huazhang dijo que han verificado la efectividad de la ley de escala en el campo de la generación de video y planean expandir la cantidad de datos y la escala del modelo en el futuro, y explorar arquitecturas de modelos innovadoras para comprimir la información de video de manera más eficiente e integrar mejor el texto y Contenido de vídeo.

Código: https://github.com/thudm/cogvideo

Modelo: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

Sin duda, el código abierto de CogVideoX v1.5 promoverá aún más el desarrollo tecnológico y la innovación de aplicaciones en el campo de la generación de vídeo, proporcionando a los desarrolladores herramientas y recursos más potentes. ¡Esperamos más sorpresas de la serie CogVideoX en el futuro!