Zhipu AI abrió su modelo de generación de video CogVideoX, un movimiento destinado a acelerar el desarrollo y la popularización de aplicaciones de la tecnología de generación de video. Con su rendimiento eficiente, la versión CogVideoX-2B requiere solo una tarjeta gráfica 4090 para realizar la inferencia y una tarjeta gráfica A6000 para completar el ajuste fino, lo que reduce en gran medida el umbral de uso y permite que se utilice más ampliamente en el ámbito comercial. campos. Este modelo se basa en la tecnología avanzada de codificador automático variacional 3D (3D VAE) y se combina con la tecnología experta Transformer, que puede generar contenido de video de alta calidad, resolver de manera efectiva el problema de la falta de descripción textual de los datos de video y filtrar estrictamente los datos de video. , Garantizando la calidad de los datos del entrenamiento del modelo.
El modelo CogVideoX utiliza tecnología de codificador automático variacional 3D (3D VAE) para comprimir simultáneamente las dimensiones espaciales y temporales del video a través de convolución tridimensional, logrando tasas de compresión más altas y una mejor calidad de reconstrucción. La estructura del modelo incluye un codificador, un decodificador y un regularizador de espacio latente, que garantiza la causalidad de la información a través de una convolución causal temporal. Además, se utiliza la tecnología experta Transformer para procesar los datos de video codificados y combinarlos con la entrada de texto para generar contenido de video de alta calidad. Para entrenar el modelo CogVideoX, Zhipu AI ha desarrollado un conjunto de métodos para filtrar datos de video de alta calidad, eliminando videos con sobreedición, movimiento incoherente y otros problemas, asegurando la calidad de los datos para el entrenamiento del modelo. Al mismo tiempo, el problema de la falta de descripción textual de los datos de vídeo se resuelve mediante un canal que genera subtítulos de vídeo a partir de subtítulos de imágenes. En términos de evaluación del desempeño, CogVideoX se desempeña bien en múltiples indicadores, incluidas acciones humanas, escenas, niveles dinámicos, etc., así como en herramientas de evaluación que se centran en las características dinámicas del video. Zhipu AI continuará explorando innovaciones en el campo de la generación de video, incluidas nuevas arquitecturas de modelos, compresión de información de video y fusión de contenido de texto y video.
Para entrenar el modelo CogVideoX, Zhipu AI ha desarrollado un conjunto de métodos para filtrar datos de video de alta calidad, eliminando videos con sobreedición, movimiento incoherente y otros problemas, asegurando la calidad de los datos para el entrenamiento del modelo. Al mismo tiempo, el problema de la falta de descripción textual de los datos de vídeo se resuelve mediante un canal que genera subtítulos de vídeo a partir de subtítulos de imágenes.
En términos de evaluación del rendimiento, CogVideoX funciona bien en múltiples indicadores, incluidas acciones humanas, escenas, niveles dinámicos, etc., así como en herramientas de evaluación que se centran en las características dinámicas del vídeo. Zhipu AI continuará explorando innovaciones en el campo de la generación de video, incluidas nuevas arquitecturas de modelos, compresión de información de video y fusión de contenido de texto y video.
Repositorio de código:
https://github.com/THUDM/CogVideo
Descarga del modelo:
https://huggingface.co/THUDM/CogVideoX-2b
Informe técnico:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
El código abierto de CogVideoX proporciona recursos valiosos para la investigación de tecnología de generación de video y también indica que este campo marcará el comienzo de una nueva ola de desarrollo. Su rendimiento eficiente y facilidad de uso impulsarán a más desarrolladores a participar en la innovación de la tecnología de generación de video y promoverán su aplicación generalizada en diversas industrias. ¡Esperamos que Zhipu AI realice más avances en este campo en el futuro!