Dies ist der Code für „Speech2Video Synthesis with 3D Skeleton Regularization and Expressive Body Poses“. ACCV 2020. Projektseite
Wir schlagen einen neuartigen Ansatz vor, um gegebenes Sprachaudio in ein fotorealistisches Sprechvideo einer bestimmten Person umzuwandeln, wobei das Ausgabevideo eine synchronisierte, realistische und ausdrucksstarke Körperdynamik aufweist. Dies erreichen wir, indem wir zunächst mithilfe eines rekurrenten neuronalen Netzwerks (RNN) 3D-Skelettbewegungen aus der Audiosequenz generieren und dann das Ausgabevideo über ein bedingtes generatives gegnerisches Netzwerk (GAN) synthetisieren. Um die Skelettbewegung realistisch und ausdrucksstark zu gestalten, betten wir das Wissen eines artikulierten 3D-Menschenskeletts und ein erlerntes Wörterbuch persönlicher ikonischer Sprachgesten in den Generierungsprozess sowohl in Lern- als auch in Testpipelines ein. Ersteres verhindert die Entstehung unangemessener Körperverzerrungen, während Letzteres unserem Modell hilft, anhand einiger aufgezeichneter Videos schnell sinnvolle Körperbewegungen zu erlernen. Um fotorealistische und hochauflösende Videos mit Bewegungsdetails zu erzeugen, schlagen wir vor, Teilaufmerksamkeitsmechanismen in das bedingte GAN einzufügen, wobei jedes detaillierte Teil, z. B. Kopf und Hand, automatisch vergrößert wird, um über eigene Diskriminatoren zu verfügen.
Vorab trainiertes Modell herunterladen
Speech2Video-Synthese mit 3D-Skelett-Regulierung und ausdrucksstarken Körperhaltungen
Miao Liao*, Sibo Zhang*, Peng Wang, Hao Zhu, Xinxin Zuo, Ruigang Yang. PDF-Ergebnisvideo 1 Min. Spotlight 10 Min. Präsentation
@inproceedings{liao2020speech2video,
title={Speech2video synthesis with 3D skeleton regularization and expressive body poses},
author={Liao, Miao and Zhang, Sibo and Wang, Peng and Zhu, Hao and Zuo, Xinxin and Yang, Ruigang},
booktitle={Proceedings of the Asian Conference on Computer Vision},
year={2020}
}
Dieser Code basiert auf dem vid2vid-Framework.