Este es el código para "Síntesis de Speech2Video con regularización de esqueletos 3D y posturas corporales expresivas". ACCV 2020. Página del Proyecto
Proponemos un enfoque novedoso para convertir un audio de voz determinado en un video fotorrealista de una persona específica, donde el video de salida tiene una dinámica corporal rica, realista y expresiva, sincronizada. Logramos esto generando primero movimientos de esqueleto 3D a partir de la secuencia de audio usando una red neuronal recurrente (RNN) y luego sintetizando el video de salida a través de una red generativa adversarial condicional (GAN). Para que el movimiento del esqueleto sea realista y expresivo, incorporamos el conocimiento de un esqueleto humano articulado en 3D y un diccionario aprendido de gestos icónicos del habla personal en el proceso de generación tanto en el proceso de aprendizaje como en el de prueba. El primero evita la generación de distorsiones corporales irrazonables, mientras que el segundo ayuda a nuestro modelo a aprender rápidamente movimientos corporales significativos a través de algunos videos grabados. Para producir videos fotorrealistas y de alta resolución con detalles de movimiento, proponemos insertar mecanismos de atención de partes en la GAN condicional, donde cada parte detallada, por ejemplo, cabeza y mano, se acerca automáticamente para tener sus propios discriminadores.
modelo previamente entrenado Descargar
Síntesis de Speech2Video con regularización de esqueletos 3D y posturas corporales expresivas
Miao Liao*, Sibo Zhang*, Peng Wang, Hao Zhu, Xinxin Zuo, Ruigang Yang. PDF Resultado Vídeo 1 min Destacado 10 min Presentación
@inproceedings{liao2020speech2video,
title={Speech2video synthesis with 3D skeleton regularization and expressive body poses},
author={Liao, Miao and Zhang, Sibo and Wang, Peng and Zhu, Hao and Zuo, Xinxin and Yang, Ruigang},
booktitle={Proceedings of the Asian Conference on Computer Vision},
year={2020}
}
Este código está basado en el marco vid2vid.