هذا رمز لـ "Speech2Video Synthesis مع تنظيم الهيكل العظمي ثلاثي الأبعاد ووضعيات الجسم التعبيرية". ACCV 2020. صفحة المشروع
نحن نقترح طريقة جديدة لتحويل صوت الكلام إلى فيديو يتحدث بصور واقعية لشخص معين، حيث يكون الفيديو الناتج متزامنًا وواقعيًا ومعبرًا بديناميكيات الجسم الغنية. نحقق ذلك من خلال إنشاء حركات هيكلية ثلاثية الأبعاد أولًا من التسلسل الصوتي باستخدام شبكة عصبية متكررة (RNN)، ثم تجميع فيديو الإخراج عبر شبكة خصومة توليدية مشروطة (GAN). ولجعل حركة الهيكل العظمي واقعية ومعبرة، قمنا بتضمين معرفة الهيكل العظمي البشري المفصلي ثلاثي الأبعاد وقاموسًا متعلمًا لإيماءات الكلام الشخصية المميزة في عملية التوليد في كل من مسارات التعلم والاختبار. الأول يمنع توليد تشويه غير معقول للجسم، بينما يساعد الأخير نموذجنا على تعلم حركة الجسم ذات المغزى بسرعة من خلال عدد قليل من مقاطع الفيديو المسجلة. لإنتاج فيديو واقعي وعالي الدقة مع تفاصيل الحركة، نقترح إدراج آليات الانتباه الجزئي في GAN الشرطية، حيث يتم تكبير كل جزء تفصيلي، على سبيل المثال، الرأس واليد، تلقائيًا للحصول على أدوات تمييز خاصة به.
تحميل نموذج مدرب مسبقا
تركيب Speech2Video مع تنظيم الهيكل العظمي ثلاثي الأبعاد ووضعيات الجسم التعبيرية
مياو لياو*، سيبو تشانغ*، بينج وانغ، هاو تشو، زينكسين زو، رويغانغ يانغ. فيديو نتيجة PDF 1 دقيقة أضواء كاشفة 10 دقائق عرض تقديمي
@inproceedings{liao2020speech2video,
title={Speech2video synthesis with 3D skeleton regularization and expressive body poses},
author={Liao, Miao and Zhang, Sibo and Wang, Peng and Zhu, Hao and Zuo, Xinxin and Yang, Ruigang},
booktitle={Proceedings of the Asian Conference on Computer Vision},
year={2020}
}
يعتمد هذا الرمز على إطار عمل vid2vid.