ByteDance ha abierto una innovadora tecnología de sincronización de labios llamada LatentSync, que se basa en el modelo de difusión latente de las condiciones de audio y logra una sincronización precisa de los movimientos de los labios del personaje en el vídeo con el audio. Utiliza directamente el poder de la difusión estable sin la necesidad de una representación de movimiento intermedia, modela de manera efectiva asociaciones audiovisuales complejas y mejora la consistencia temporal a través de la tecnología de alineación de representación temporal (TREPA). LatentSync también optimiza el problema de convergencia de SyncNet y mejora significativamente la precisión de la sincronización de labios. Esta tecnología tiene ventajas significativas en el marco de trabajo de un extremo a otro, generación de alta calidad, consistencia temporal y optimización SyncNet, lo que proporciona una nueva solución para la animación de retratos basada en audio.
Se descubrió que los métodos de sincronización de labios basados en difusión funcionan mal en términos de consistencia temporal debido a inconsistencias en el proceso de difusión entre diferentes fotogramas. Para resolver este problema, LatentSync presenta la tecnología Time Representation Alignment (TREPA). TREPA aprovecha las representaciones temporales extraídas de grandes modelos de vídeo autosupervisados para alinear los fotogramas generados con fotogramas reales, mejorando así la coherencia temporal y manteniendo la precisión de la sincronización labial.
Además, el equipo de investigación también realizó un estudio en profundidad del problema de convergencia de SyncNet y, a través de una gran cantidad de estudios empíricos, identificó los factores clave que afectan la convergencia de SyncNet, incluida la arquitectura del modelo, los hiperparámetros de entrenamiento y los métodos de preprocesamiento de datos. Al optimizar estos factores, la precisión de SyncNet en el conjunto de pruebas HDTF mejora significativamente del 91% al 94%. Dado que el marco de capacitación general de SyncNet no cambia, esta experiencia también se puede aplicar a otros métodos de sincronización de labios y animación de retratos basados en audio que utilizan SyncNet.
Ventajas de LatentSync
Marco de extremo a extremo: genere movimientos de labios sincronizados directamente desde el audio sin representación de movimiento intermedia.
Generación de alta calidad: utilice las poderosas capacidades de Stable Diffusion para generar videos de habla dinámicos y realistas.
Coherencia temporal: mejore la coherencia temporal entre cuadros de video a través de la tecnología TREPA.
Optimización de SyncNet: resuelva el problema de convergencia de SyncNet y mejore significativamente la precisión de la sincronización de labios.
Principio de funcionamiento
El núcleo de LatentSync se basa en la tecnología de reparación de imagen a imagen, que requiere la entrada de una imagen enmascarada como referencia. Para integrar las características visuales faciales del video original, el modelo también ingresa imágenes de referencia. Después del empalme de canales, esta información de entrada se ingresa en la red U-Net para su procesamiento.
El modelo utiliza el extractor de funciones de audio previamente entrenado Whisper para extraer incrustaciones de audio. Los movimientos de los labios pueden verse afectados por el audio de los fotogramas circundantes, por lo que el modelo agrupa el audio de múltiples fotogramas circundantes como entrada para proporcionar más información temporal. Las incrustaciones de audio se integran en U-Net a través de capas de atención cruzada.
Para resolver el problema de que SyncNet requiere entrada de espacio de imagen, el modelo primero predice en el espacio ruidoso y luego obtiene el espacio latente limpio estimado mediante un método de un solo paso. El estudio encontró que entrenar SyncNet en el espacio de píxeles es mejor que entrenar en el espacio latente, lo que puede deberse a que la información de la región del labio se pierde durante la codificación VAE.
El proceso de capacitación se divide en dos etapas: en la primera etapa, U-Net aprende características visuales sin decodificar el espacio de píxeles y agrega pérdida de SyncNet. La segunda etapa agrega la pérdida SyncNet utilizando el método de supervisión del espacio de píxeles decodificados y utiliza la pérdida LPIPS para mejorar la calidad visual de la imagen. Para garantizar que el modelo aprenda correctamente la información temporal, el ruido de entrada también debe ser temporalmente consistente y el modelo utiliza un modelo de ruido mixto. Además, en la etapa de preprocesamiento de datos, también se utiliza la transformación afín para lograr la frontalización facial.
tecnología TREPA
TREPA mejora la coherencia temporal al alinear las representaciones temporales de secuencias de imágenes reales y generadas. Este método utiliza el modelo de vídeo autosupervisado a gran escala VideoMAE-v2 para extraer representaciones temporales. A diferencia de los métodos que solo utilizan la pérdida de distancia entre imágenes, la representación temporal puede capturar correlaciones temporales en secuencias de imágenes, mejorando así la coherencia temporal general. Los estudios han encontrado que TREPA no solo no daña la precisión de la sincronización de labios, sino que en realidad puede mejorarla.
Problemas de convergencia de SyncNet
La investigación ha encontrado que la pérdida de entrenamiento de SyncNet tiende a permanecer cerca de 0,69 y no se puede reducir más. A través de un extenso análisis experimental, el equipo de investigación descubrió que el tamaño del lote, el número de cuadros de entrada y el método de preprocesamiento de datos tienen un impacto significativo en la convergencia de SyncNet. La arquitectura del modelo también afecta la convergencia, pero en menor medida.
Los resultados experimentales muestran que LatentSync supera a otros métodos de sincronización de labios de última generación en múltiples métricas. Especialmente en términos de precisión de sincronización de labios, gracias a su SyncNet optimizado y a su capa de atención cruzada de audio, que puede capturar mejor la relación entre el audio y los movimientos de los labios. Además, la coherencia temporal de LatentSync se ha mejorado significativamente gracias a la tecnología TREPA.
Dirección del proyecto: https://github.com/bytedance/LatentSync
El código abierto de LatentSync ha aportado nuevos avances al desarrollo de la tecnología de sincronización de labios. Su rendimiento eficiente y preciso y sus métodos de entrenamiento optimizados son dignos de investigación y aplicación. En el futuro, se espera que esta tecnología desempeñe un papel más importante en la producción de vídeo, la realidad virtual y otros campos.