Shengshu Technology Generación de video Modelo VIDU Versión 1.5 La versión supera el problema de la "consistencia de múltiples sujetos" - Artículos AI

Autor：Eve Cole Fecha de actualización：2025-02-12 03:32:01

Más de cien días después de que se lanzara Vidu, Shengshu Technology lanzó grandioso Vidu Versión 1.5, que ha hecho un avance líder en el mundo para comprender las entradas diversificadas y resolver el problema de "consistencia". Esto marca la entrada de modelos visuales en la era del "contexto" y establece una base sólida para el desarrollo acelerado de la inteligencia artificial general (AGI). Vidu 1.5 no es una actualización funcional simple, sino un reflejo de la aparición de la inteligencia del modelo visual.

Más de 100 días después de que se lanzara Vidu, Shengshu Technology anunció con orgullo el lanzamiento de la nueva versión de VIDU1.5, que logró un avance en el nivel principal del mundo, especialmente para comprender las entradas diversificadas y romper el problema de "consistencia".

El lanzamiento de VIDU1.5 marca la entrada de modelos visuales en una nueva era de "contexto" y acelera la llegada de inteligencia artificial general (AGI). Vidu tiene la capacidad de generar personajes de manera consistente al comienzo de su lanzamiento global, y resolvió puntos de dolor clave en la generación de videos al bloquear las características faciales de los personajes. En septiembre, Vidu fue el primero en el mundo en lanzar la función de "consistencia del sujeto", ampliando la consistencia facial a la consistencia de todo el cuerpo y expandiendo el alcance a cualquier tema, como animales, objetos y caracteres virtuales. Los avances tecnológicos de Vidu se reflejan principalmente en tres aspectos: control preciso de sujetos complejos, consistencia natural de los rasgos faciales y expresiones dinámicas, y consistencia múltiple de sujetos.

微信截图_20241113135537.png

微信截图_20241113135531.png

VIDU1.5 muestra la nueva "emergencia de inteligencia" de los modelos visuales, demostrando su poderosa capacidad de aprendizaje de contexto. Esto significa que el modelo visual no solo tiene la capacidad de comprender e imaginar, sino que también puede administrar la memoria durante el proceso de generación. VIDU1.5 continúa su eficiencia de generación líder en la industria, generando un video en menos de 30 segundos. Vidu se adhiere al concepto de universalidad, una filosofía de diseño consistente con LLM (modelo de lenguaje grande), unifica todos los problemas en problemas con la entrada visual y la salida visual, utiliza un solo transformador para modelar uniformemente la entrada y salida de longitud variable, y utiliza una sola salida. Transformador para unificar el modelado de entrada y salida de longitud variable, y de los datos de video obtiene inteligencia en compresión.

El lanzamiento de VIDU1.5 no solo mejora la capacidad de control del modelo de video, sino que también logra la generación consistente de múltiples ángulos, múltiples sujetos y múltiples elementos a través de entradas flexibles y diversas. Esto marca el surgimiento de la inteligencia visual y acelera la llegada de AGI. Vidu ya no es solo un generador de video de alta calidad y eficiente, también puede incorporar información y memoria contextual en el proceso de generación. El modelo visual tendrá habilidades cognitivas más fuertes y se convertirá en un rompecabezas importante para AGI.

Dirección de experiencia: www.vidu.studio

La liberación de Vidu 1.5 no es solo un avance tecnológico, sino también un progreso hito en el campo de la inteligencia visual. Proporciona nuevas posibilidades para el desarrollo futuro de AGI, y vale la pena esperar su aplicación e innovación en más campos. ¡Bienvenido a visitar la dirección de experiencia y experimentar el encanto de la inteligencia visual!