El editor de Downcodes se enteró de que Zhipu AI Company recientemente abrió el código fuente de su nuevo modelo de generación de video CogVideoX-5B. Este modelo ha logrado mejoras significativas en la calidad de generación de video, efectos visuales y rendimiento de inferencia, lo cual es una mejora significativa en comparación con el producto de la generación anterior CogVideoX-2B. Incluso las primeras tarjetas GTX 1080Ti pueden ejecutar modelos de generaciones anteriores, mientras que las tarjetas convencionales como la RTX 3060 pueden manejar CogVideoX-5B con facilidad. Esto marca una reducción adicional del umbral para la tecnología de generación de video de alta calidad, brindando a más desarrolladores y usuarios soluciones de generación de video convenientes y eficientes.
Recientemente, Zhipu AI Company ha abierto un nuevo modelo de generación de video CogVideoX-5B. No solo supera al producto de la generación anterior CogVideoX-2B en términos de calidad de generación de video y efectos visuales, sino que su rendimiento de razonamiento ha mejorado enormemente, lo que lo hace temprano. Las tarjetas gráficas GTX1080Ti pueden ejecutar el modelo de la generación anterior, y las tarjetas gráficas de escritorio de nivel postre, como la RTX3060, pueden manejar fácilmente este nuevo modelo.
Comparación detallada de parámetros entre CogVideoX-5B y CogVideoX-2B:
Este modelo DiT (transformador de difusión) a gran escala está diseñado para realizar tareas de generación de texto a video. La tecnología detrás de esto incluye un codificador automático variacional causal 3D (VAE causal 3D), que logra una reconstrucción de video eficiente al comprimir datos de video en un espacio latente y decodificarlos en la dimensión temporal.
Además, el uso de Expert Transformer combina incrustación de texto e incrustación de video, utiliza 3D-RoPE como codificación de posición, normaliza los datos de las dos modalidades a través de la capa adaptativa experta y utiliza atención total 3D El mecanismo de fuerza se modela conjuntamente en el espacio. y tiempo.
Código: https://top.aibase.com/tool/cogvideox
Descarga del modelo: https://huggingface.co/THUDM/CogVideoX-5b
Enlace del artículo: https://arxiv.org/pdf/2408.06072
El código abierto de CogVideoX-5B ha aportado nuevos avances en el campo de la generación de vídeo, ha reducido el umbral técnico y ha proporcionado una base sólida para futuras investigaciones y aplicaciones. El editor de Downcodes cree que esta tecnología promoverá un mayor desarrollo de la tecnología de generación de vídeo y llevará aplicaciones innovadoras a más campos.