语音2视频
1.0.0
这是“Speech2Video Synthesis with 3D Skeleton Regularization and Expressive Body Poses”的代码。 ACCV 2020。项目页面
我们提出了一种新颖的方法,将给定的语音音频转换为特定人的逼真说话视频,其中输出视频具有同步、真实且富有表现力的身体动态。我们通过首先使用循环神经网络 (RNN) 从音频序列生成 3D 骨架运动,然后通过条件生成对抗网络 (GAN) 合成输出视频来实现这一目标。为了使骨骼运动真实且富有表现力,我们将铰接式 3D 人体骨骼的知识和个人语音标志性手势的学习字典嵌入到学习和测试管道的生成过程中。前者防止产生不合理的身体扭曲,而后者通过一些录制的视频帮助我们的模型快速学习有意义的身体运动。为了生成具有运动细节的逼真且高分辨率的视频,我们建议在条件 GAN 中插入部分注意力机制,其中每个细节部分(例如头和手)都会自动放大以拥有自己的鉴别器。
预训练模型下载
具有 3D 骨架正则化和表现力身体姿势的 Speech2Video 合成
廖苗*、张思波*、王鹏、朱浩、左欣欣、杨瑞刚。 PDF 结果视频 1 分钟 聚焦 10 分钟演示
@inproceedings{liao2020speech2video,
title={Speech2video synthesis with 3D skeleton regularization and expressive body poses},
author={Liao, Miao and Zhang, Sibo and Wang, Peng and Zhu, Hao and Zuo, Xinxin and Yang, Ruigang},
booktitle={Proceedings of the Asian Conference on Computer Vision},
year={2020}
}
该代码基于vid2vid框架。