語音2視頻
1.0.0
這是「Speech2Video Synthesis with 3D Skeleton Regularization and Expressive Body Poses」的程式碼。 ACCV 2020。
我們提出了一種新穎的方法,將給定的語音音頻轉換為特定人的逼真說話視頻,其中輸出視頻具有同步、真實且富有表現力的身體動態。我們透過首先使用循環神經網路 (RNN) 從音訊序列生成 3D 骨架運動,然後透過條件生成對抗網路 (GAN) 合成輸出視訊來實現這一目標。為了使骨骼運動真實且富有表現力,我們將鉸接式 3D 人體骨骼的知識和個人語音標誌性手勢的學習字典嵌入到學習和測試管道的生成過程中。前者防止不合理的身體扭曲,而後者透過一些錄製的影片幫助我們的模型快速學習有意義的身體運動。為了生成具有運動細節的逼真且高分辨率的視頻,我們建議在條件 GAN 中插入部分注意力機制,其中每個細節部分(例如頭和手)都會自動放大以擁有自己的鑑別器。
預訓練模型下載
具有 3D 骨架正規化和表現力身體姿勢的 Speech2Video 合成
廖苗*、張思波*、王鵬、朱浩、左欣欣、楊瑞剛。 PDF 結果影片 1 分鐘 聚焦 10 分鐘示範
@inproceedings{liao2020speech2video,
title={Speech2video synthesis with 3D skeleton regularization and expressive body poses},
author={Liao, Miao and Zhang, Sibo and Wang, Peng and Zhu, Hao and Zuo, Xinxin and Yang, Ruigang},
booktitle={Proceedings of the Asian Conference on Computer Vision},
year={2020}
}
該程式碼基於vid2vid框架。