La comunidad ModelScope ha abierto una versión mejorada de su modelo nacional de generación de video Sora CogVideoX - CogVideoX-5B, que es un modelo de generación de texto a video basado en un modelo DiT a gran escala. En comparación con el CogVideoX-2B anterior, el nuevo modelo ha mejorado significativamente la calidad del vídeo y los efectos visuales. CogVideoX-5B utiliza un codificador automático variacional causal 3D (VAE causal 3D) y tecnología Transformer experta, y utiliza 3D-RoPE como codificación de posición y mecanismo de atención total 3D para el modelado de articulaciones espacio-temporales. También utiliza tecnología de entrenamiento progresivo. , vídeos de mayor calidad y con más movimiento.
En comparación con el CogVideoX-2B anterior, el nuevo modelo ha mejorado significativamente la calidad y los efectos visuales de la generación de vídeo.
CogVideoX-5B se basa en un modelo DiT (transformador de difusión) a gran escala, especialmente diseñado para tareas de generación de texto a video. El modelo adopta un codificador automático variacional causal 3D (VAE causal 3D) y tecnología Transformer experta, combina incrustaciones de texto y video, utiliza 3D-RoPE como codificación de posición y utiliza un mecanismo de atención total 3D para el modelado de articulaciones espacio-temporales.
Además, el modelo adopta tecnología de entrenamiento progresivo y es capaz de generar vídeos coherentes y de alta calidad a largo plazo con importantes características de movimiento.
Enlace del modelo:
https://modelscope.cn/models/ZhipuAI/CogVideoX-5b
El código abierto de CogVideoX-5B ha aportado nuevos avances tecnológicos y oportunidades de desarrollo al campo de la generación de vídeo de IA nacional, y también ha proporcionado potentes herramientas y recursos para investigadores y desarrolladores. Se cree que en el futuro aparecerán aplicaciones más innovadoras basadas en CogVideoX-5B, promoviendo el progreso continuo de la tecnología de generación de video AI. El fácil acceso al modelo también reduce el umbral de investigación y aplicación, promoviendo una mayor difusión y aplicación de la tecnología.