Il s'agit du code pour "Synthèse Speech2Video avec régularisation du squelette 3D et poses corporelles expressives". ACCV 2020. Page du projet
Nous proposons une nouvelle approche pour convertir l'audio vocal donné en une vidéo parlante photo-réaliste d'une personne spécifique, où la vidéo de sortie a une dynamique corporelle riche, synchronisée, réaliste et expressive. Nous y parvenons en générant d'abord des mouvements de squelette 3D à partir de la séquence audio à l'aide d'un réseau neuronal récurrent (RNN), puis en synthétisant la vidéo de sortie via un réseau contradictoire génératif conditionnel (GAN). Pour rendre le mouvement du squelette réaliste et expressif, nous intégrons la connaissance d'un squelette humain 3D articulé et un dictionnaire appris de gestes emblématiques de la parole personnelle dans le processus de génération, à la fois dans les pipelines d'apprentissage et de test. Le premier empêche la génération de distorsions corporelles déraisonnables, tandis que le second aide notre modèle à apprendre rapidement des mouvements corporels significatifs grâce à quelques vidéos enregistrées. Pour produire une vidéo photoréaliste et haute résolution avec des détails de mouvement, nous proposons d'insérer des mécanismes d'attention partielle dans le GAN conditionnel, où chaque partie détaillée, par exemple la tête et la main, est automatiquement zoomée pour avoir ses propres discriminateurs.
modèle pré-entraîné Télécharger
Synthèse Speech2Video avec régularisation du squelette 3D et poses corporelles expressives
Miao Liao*, Sibo Zhang*, Peng Wang, Hao Zhu, Xinxin Zuo, Ruigang Yang. PDF Résultat Vidéo 1 min Pleins feux 10 min Présentation
@inproceedings{liao2020speech2video,
title={Speech2video synthesis with 3D skeleton regularization and expressive body poses},
author={Liao, Miao and Zhang, Sibo and Wang, Peng and Zhu, Hao and Zuo, Xinxin and Yang, Ruigang},
booktitle={Proceedings of the Asian Conference on Computer Vision},
year={2020}
}
Ce code est basé sur le framework vid2vid.