これは「3D スケルトン正則化と表現力豊かなボディポーズを使用した Speech2Video 合成」のコードです。 ACCV 2020.プロジェクトページ
我々は、特定の音声を特定の人物の写真のようにリアルな会話ビデオに変換する新しいアプローチを提案します。出力ビデオは、同期したリアルで表現力豊かな身体ダイナミクスを備えています。これは、最初にリカレント ニューラル ネットワーク (RNN) を使用してオーディオ シーケンスから 3D スケルトンの動きを生成し、次に条件付き敵対的生成ネットワーク (GAN) を介して出力ビデオを合成することで実現します。スケルトンの動きを現実的かつ表現力豊かにするために、関節のある 3D 人間のスケルトンの知識と、個人の音声の象徴的なジェスチャーの学習済み辞書を、学習パイプラインとテスト パイプラインの両方の生成プロセスに埋め込みます。前者は不当な体の歪みの生成を防ぎ、後者はモデルがいくつかの録画されたビデオを通じて意味のある体の動きを迅速に学習するのに役立ちます。動きの詳細を含むフォトリアリスティックで高解像度のビデオを生成するために、条件付き GAN にパーツ アテンション メカニズムを挿入することを提案します。このメカニズムでは、頭や手などの各詳細パーツが自動的にズームインされ、独自の識別子が設定されます。
事前学習済みモデルのダウンロード
3D スケルトン正則化と表現力豊かな身体ポーズを使用した Speech2Video 合成
ミャオ・リャオ*、シボ・チャン*、ペン・ワン、ハオ・ズー、シンシン・ズオ、ルイガン・ヤン。 PDF 結果ビデオ 1 分 スポットライト 10 分 プレゼンテーション
@inproceedings{liao2020speech2video,
title={Speech2video synthesis with 3D skeleton regularization and expressive body poses},
author={Liao, Miao and Zhang, Sibo and Wang, Peng and Zhu, Hao and Zuo, Xinxin and Yang, Ruigang},
booktitle={Proceedings of the Asian Conference on Computer Vision},
year={2020}
}
このコードは vid2vid フレームワークに基づいています。