Este é o código para "Síntese Speech2Video com regularização de esqueleto 3D e poses corporais expressivas". ACCV 2020. Página do Projeto
Propomos uma nova abordagem para converter um determinado áudio de fala em um vídeo fotorrealista de fala de uma pessoa específica, onde o vídeo de saída tem uma dinâmica corporal rica, sincronizada, realista e expressiva. Conseguimos isso primeiro gerando movimentos de esqueleto 3D a partir da sequência de áudio usando uma rede neural recorrente (RNN) e, em seguida, sintetizando o vídeo de saída por meio de uma rede adversária geradora condicional (GAN). Para tornar o movimento do esqueleto realista e expressivo, incorporamos o conhecimento de um esqueleto humano 3D articulado e um dicionário aprendido de gestos icônicos de fala pessoal no processo de geração, tanto em pipelines de aprendizado quanto de teste. O primeiro evita a geração de distorção corporal irracional, enquanto o último ajuda nosso modelo a aprender rapidamente movimentos corporais significativos por meio de alguns vídeos gravados. Para produzir vídeos fotorrealistas e de alta resolução com detalhes de movimento, propomos inserir mecanismos de atenção de peças no GAN condicional, onde cada parte detalhada, por exemplo, cabeça e mão, é automaticamente ampliada para ter seus próprios discriminadores.
modelo pré-treinado Baixar
Síntese Speech2Video com regularização de esqueleto 3D e poses corporais expressivas
Miao Liao*, Sibo Zhang*, Peng Wang, Hao Zhu, Xinxin Zuo, Ruigang Yang. Resultado em PDF Vídeo 1 min Destaque 10 min Apresentação
@inproceedings{liao2020speech2video,
title={Speech2video synthesis with 3D skeleton regularization and expressive body poses},
author={Liao, Miao and Zhang, Sibo and Wang, Peng and Zhu, Hao and Zuo, Xinxin and Yang, Ruigang},
booktitle={Proceedings of the Asian Conference on Computer Vision},
year={2020}
}
Este código é baseado na estrutura vid2vid.