Zhipu AI ha lanzado una nueva generación del modelo de generación de video CogVideoX, cuyo núcleo es mejorar significativamente la eficiencia y la calidad de la generación de video, lo que marca el mayor avance de la compañía en el campo de la tecnología multimodal. CogVideoX ha logrado múltiples innovaciones a nivel técnico y se ha abierto a los usuarios a través de la plataforma Zhipu Qingyan, brindando convenientes servicios de generación de video de IA y brindando interfaces de llamadas API para empresas y desarrolladores.
Zhipu AI lanzó una nueva generación de modelo de generación de video CogVideoX, lo que marca otro progreso importante en el desarrollo de tecnología multimodal de la compañía.
Las características técnicas principales de CogVideoX incluyen:
Estructura de codificador automático variacional tridimensional (3D VAE): esta estructura desarrollada independientemente por Zhipu AI puede comprimir los datos de video originales al 2% del tamaño original, lo que reduce el costo y la dificultad del entrenamiento. Combinado con el módulo de codificación de posición 3D RoPE, mejora la capacidad de capturar relaciones entre cuadros en la dimensión temporal y establece dependencias a largo plazo en videos.
Modelo de comprensión de video de un extremo a otro: mejora la capacidad del modelo para comprender texto y seguir instrucciones, asegurando que el video generado esté más en línea con las necesidades del usuario y pueda manejar instrucciones rápidas ultralargas y complejas.
Arquitectura transformadora que integra texto, tiempo y espacio en tres dimensiones: Expert Block está diseñado de manera innovadora para alinear espacios modales de texto y video, y optimiza la interacción entre modalidades a través del mecanismo de Atención Total.
El modelo CogVideoX se lanzó en la PC, aplicaciones móviles y miniprogramas de Zhipu Qingyan. Los usuarios pueden experimentar servicios de video generados por texto e imágenes con IA de forma gratuita a través de la función "Ying". Las características principales de Qingying incluyen generación rápida, capacidades eficientes de seguimiento de comandos, coherencia de contenido y flexibilidad de programación de pantalla.
Además, bigmodel.cn, la plataforma abierta para grandes modelos, también ha implementado "Qingying", y las empresas y los desarrolladores pueden utilizar sus funciones a través de llamadas API. Zhipu AI ha verificado la efectividad de Scaling Law en el campo de la generación de video y continuará expandiendo la escala de datos y la escala del modelo, e investigará nuevas arquitecturas de modelo para comprimir la información de video de manera más eficiente e integrar texto y contenido de video de manera más completa.
Dirección de la experiencia: https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu
El lanzamiento de CogVideoX no solo brinda a los usuarios una experiencia de generación de video con IA más conveniente, sino que también indica que la tecnología de generación de video con IA marcará el comienzo de una nueva etapa de desarrollo. En el futuro, Zhipu AI continuará explorando arquitecturas de modelos y soluciones técnicas más avanzadas para promover el avance continuo de la tecnología de generación de videos de IA.