Ini adalah kode untuk "Sintesis Speech2Video dengan Regularisasi Kerangka 3D dan Pose Tubuh Ekspresif". ACCV 2020. Halaman Proyek
Kami mengusulkan pendekatan baru untuk mengubah audio ucapan tertentu menjadi video percakapan foto-realistis dari orang tertentu, yang mana video keluarannya memiliki dinamika tubuh yang kaya dan ekspresif yang tersinkronisasi, realistis, dan ekspresif. Kami mencapai hal ini dengan pertama-tama menghasilkan gerakan kerangka 3D dari urutan audio menggunakan jaringan saraf berulang (RNN), dan kemudian mensintesis video keluaran melalui jaringan permusuhan generatif bersyarat (GAN). Untuk membuat gerakan kerangka menjadi realistis dan ekspresif, kami menanamkan pengetahuan tentang kerangka manusia 3D yang diartikulasikan dan kamus yang dipelajari tentang isyarat ucapan pribadi ke dalam proses pembuatan baik dalam pembelajaran maupun pengujian pipeline. Yang pertama mencegah timbulnya distorsi tubuh yang tidak wajar, sedangkan yang kedua membantu model kita dengan cepat mempelajari gerakan tubuh yang bermakna melalui beberapa rekaman video. Untuk menghasilkan video foto-realistis dan resolusi tinggi dengan detail gerakan, kami mengusulkan untuk memasukkan mekanisme perhatian bagian ke dalam GAN bersyarat, di mana setiap bagian detail, misalnya kepala dan tangan, secara otomatis diperbesar untuk memiliki pembedanya sendiri.
Unduh model terlatih
Sintesis Speech2Video dengan Regularisasi Kerangka 3D dan Pose Tubuh Ekspresif
Miao Liao*, Sibo Zhang*, Peng Wang, Hao Zhu, Xinxin Zuo, Ruigang Yang. Video Hasil PDF 1 menit Sorotan 10 menit Presentasi
@inproceedings{liao2020speech2video,
title={Speech2video synthesis with 3D skeleton regularization and expressive body poses},
author={Liao, Miao and Zhang, Sibo and Wang, Peng and Zhu, Hao and Zuo, Xinxin and Yang, Ruigang},
booktitle={Proceedings of the Asian Conference on Computer Vision},
year={2020}
}
Kode ini didasarkan pada kerangka vid2vid.