Hoy en día, con el rápido desarrollo de la tecnología de inteligencia artificial, la tecnología de generación de video también ha logrado avances significativos. El editor de Downcodes le presentará Snap Video, un modelo innovador que puede generar automáticamente videos de alta calidad a través de descripciones de texto. Rompe el cuello de botella de la tecnología tradicional de generación de videos y logra una experiencia de creación de videos más eficiente, realista y escalable. Snap Video no solo logra avances en tecnología, sino que también optimiza la experiencia del usuario, brindándoles una comodidad sin precedentes en la creación de videos.
En la era de los medios digitales, el vídeo se ha convertido en la principal forma en que nos expresamos y compartimos nuestras historias. Pero la creación de vídeos de alta calidad a menudo requiere habilidades especializadas y equipos costosos. Ahora, con Snap Video, solo necesitas describir la escena que deseas con texto y el video se generará automáticamente.
Los modelos actuales de generación de imágenes han demostrado una calidad y diversidad notables. Inspirados por esto, los investigadores comenzaron a aplicar estos modelos a la generación de vídeo. Sin embargo, la alta redundancia del contenido de vídeo hace que la aplicación directa de modelos de imagen al campo de la generación de vídeo, reducirá la autenticidad, la calidad visual y la escalabilidad de las acciones.
Snap Video es un modelo centrado en video que aborda sistemáticamente estos desafíos. En primer lugar, amplía el marco EDM para considerar píxeles redundantes en el espacio y el tiempo, lo que naturalmente admite la generación de vídeo. En segundo lugar, propone una nueva arquitectura basada en transformadores que es 3,31 veces más rápida en entrenamiento y 4,5 veces más rápida en inferencia que U-Net. Esto permite a Snap Video entrenar de manera eficiente modelos de texto a video con miles de millones de parámetros, lograr resultados de última generación por primera vez y generar videos con mayor calidad, consistencia temporal y una complejidad de movimiento significativa.
Aspectos destacados técnicos:
Modelado espaciotemporal conjunto: Snap Video es capaz de sintetizar vídeos coherentes con movimiento a gran escala manteniendo al mismo tiempo el control semántico de los generadores de texto a vídeo a gran escala.
Generación de video de alta resolución: se utiliza un modelo en cascada de dos etapas para generar primero video de baja resolución y luego realizar un muestreo ascendente de alta resolución para evitar posibles problemas de inconsistencia temporal.
Arquitectura basada en FIT: Snap Video utiliza la arquitectura FIT (Transformadores entrelazados de largo alcance) para lograr un modelado conjunto eficiente de la computación espacio-temporal mediante el aprendizaje de representaciones de video comprimido.
Snap Video se evalúa en conjuntos de datos ampliamente adoptados, como UCF101 y MSR-VTT, lo que muestra ventajas particulares en la generación de calidad de acción. Los estudios de usuarios también muestran que Snap Video supera a los métodos de última generación en términos de alineación del texto del vídeo, número de acciones y calidad.
El artículo también analiza otros esfuerzos de investigación en el campo de la generación de video, incluidos métodos basados en entrenamiento adversario o técnicas de generación autorregresiva, y avances recientes en el empleo de modelos de difusión en tareas de generación de texto a video.
Snap Video resuelve sistemáticamente problemas comunes de los procesos y arquitecturas de difusión en la generación de texto a video al tratar los videos como ciudadanos de primera clase. Su marco de difusión EDM modificado propuesto y su arquitectura basada en FIT mejoran significativamente la calidad y escalabilidad de la generación de video.
Dirección del artículo: https://arxiv.org/pdf/2402.14797
Con todo, Snap Video ha logrado logros notables en el campo de la generación de texto a video, y su arquitectura eficiente y excelente rendimiento brindan nuevas posibilidades para la creación de videos en el futuro. El editor de Downcodes cree que esta tecnología tendrá un profundo impacto en el campo de la creación de vídeos.