Это код «Синтез Speech2Video с регуляризацией 3D-скелета и выразительными позами тела». ACCV 2020. Страница проекта
Мы предлагаем новый подход к преобразованию данного речевого звука в фотореалистичное видео речи конкретного человека, где выходное видео имеет синхронизированную, реалистичную и выразительную богатую динамику тела. Мы достигаем этого, сначала генерируя трехмерные движения скелета из аудиопоследовательности с помощью рекуррентной нейронной сети (RNN), а затем синтезируя выходное видео с помощью условно-генеративной состязательной сети (GAN). Чтобы сделать движение скелета реалистичным и выразительным, мы встраиваем знания о сочлененном трехмерном человеческом скелете и изученный словарь знаковых жестов личной речи в процесс генерации как в конвейерах обучения, так и в тестировании. Первый предотвращает возникновение необоснованных искажений тела, а второй помогает нашей модели быстро изучить осмысленные движения тела с помощью нескольких записанных видеороликов. Для создания фотореалистичного видео высокого разрешения с деталями движения мы предлагаем вставить механизмы внимания частей в условную GAN, где каждая детальная часть, например, голова и рука, автоматически увеличивается, чтобы иметь свои собственные дискриминаторы.
предварительно обученная модель Скачать
Синтез Speech2Video с 3D-регуляризацией скелета и выразительными позами тела
Мяо Ляо*, Сибо Чжан*, Пэн Ван, Хао Чжу, Синьсинь Цзо, Жуйган Ян. PDF-результат Видео 1 мин. В центре внимания 10 мин. Презентация
@inproceedings{liao2020speech2video,
title={Speech2video synthesis with 3D skeleton regularization and expressive body poses},
author={Liao, Miao and Zhang, Sibo and Wang, Peng and Zhu, Hao and Zuo, Xinxin and Yang, Ruigang},
booktitle={Proceedings of the Asian Conference on Computer Vision},
year={2020}
}
Этот код основан на платформе vid2vid.