이것은 "3D 뼈대 정규화 및 표현적인 신체 포즈를 사용한 Speech2Video 합성"에 대한 코드입니다. ACCV 2020. 프로젝트 페이지
우리는 주어진 음성 오디오를 특정 사람의 사실적인 말하기 비디오로 변환하는 새로운 접근 방식을 제안합니다. 여기서 출력 비디오는 동기화되고 현실적이며 표현력이 풍부한 신체 역학을 갖습니다. 우리는 먼저 순환 신경망(RNN)을 사용하여 오디오 시퀀스에서 3D 뼈대 움직임을 생성한 다음 조건부 생성 적대 신경망(GAN)을 통해 출력 비디오를 합성함으로써 이를 달성합니다. 뼈대 움직임을 현실감 있고 표현력 있게 만들기 위해 우리는 연결된 3D 인간 뼈대에 대한 지식과 개인 음성 상징적 제스처에 대한 학습 사전을 학습 및 테스트 파이프라인의 생성 프로세스에 포함시킵니다. 전자는 불합리한 신체 왜곡의 생성을 방지하고, 후자는 몇 개의 녹화된 비디오를 통해 모델이 의미 있는 신체 움직임을 빠르게 학습하도록 돕습니다. 동작 세부 사항이 포함된 사진처럼 사실적인 고해상도 비디오를 생성하기 위해 조건부 GAN에 부분 주의 메커니즘을 삽입할 것을 제안합니다. 여기서 머리와 손과 같은 각 세부 부분은 자동으로 확대되어 자체 판별자를 갖습니다.
사전 훈련된 모델 다운로드
3D 뼈대 정규화 및 표현적인 신체 포즈를 사용한 Speech2Video 합성
Miao Liao*, Sibo Zhang*, Peng Wang, Hao Zhu, Xinxin Zuo, Ruigang Yang. PDF 결과 영상 1분 스포트라이트 10분 프레젠테이션
@inproceedings{liao2020speech2video,
title={Speech2video synthesis with 3D skeleton regularization and expressive body poses},
author={Liao, Miao and Zhang, Sibo and Wang, Peng and Zhu, Hao and Zuo, Xinxin and Yang, Ruigang},
booktitle={Proceedings of the Asian Conference on Computer Vision},
year={2020}
}
이 코드는 vid2vid 프레임워크를 기반으로 합니다.