นี่คือโค้ดสำหรับ "การสังเคราะห์ Speech2Video ด้วยการปรับโครงกระดูกให้เป็นมาตรฐาน 3 มิติและท่าโพสท่าที่แสดงออก" ACCV 2020. หน้าโครงการ
เราเสนอแนวทางใหม่ในการแปลงเสียงคำพูดที่กำหนดให้เป็นวิดีโอการพูดที่สมจริงตามภาพถ่ายของบุคคลเฉพาะเจาะจง โดยที่วิดีโอเอาต์พุตจะมีการซิงโครไนซ์ สมจริง และแสดงออกถึงไดนามิกของร่างกายที่หลากหลาย เราบรรลุเป้าหมายนี้โดยการสร้างการเคลื่อนไหวโครงกระดูก 3 มิติเป็นครั้งแรกจากลำดับเสียงโดยใช้เครือข่ายประสาทที่เกิดซ้ำ (RNN) จากนั้นจึงสังเคราะห์วิดีโอเอาท์พุตผ่านเครือข่ายปฏิปักษ์ที่สร้างเงื่อนไข (GAN) เพื่อให้การเคลื่อนไหวของโครงกระดูกสมจริงและแสดงออกได้ เราได้ฝังความรู้เกี่ยวกับโครงกระดูกมนุษย์ 3 มิติที่เชื่อมต่อกันและพจนานุกรมที่เรียนรู้เกี่ยวกับท่าทางสัญลักษณ์คำพูดส่วนบุคคลลงในกระบวนการสร้างทั้งในขั้นตอนการเรียนรู้และการทดสอบ แบบแรกป้องกันการบิดเบือนของร่างกายอย่างไม่สมเหตุสมผล ในขณะที่แบบหลังช่วยให้โมเดลของเราเรียนรู้การเคลื่อนไหวร่างกายที่มีความหมายได้อย่างรวดเร็วผ่านวิดีโอที่บันทึกไว้บางส่วน ในการผลิตวิดีโอที่สมจริงและมีความละเอียดสูงพร้อมรายละเอียดการเคลื่อนไหว เราเสนอให้แทรกกลไกความสนใจของชิ้นส่วนใน GAN แบบมีเงื่อนไข โดยที่แต่ละรายละเอียด เช่น ศีรษะและมือ จะถูกซูมเข้าโดยอัตโนมัติเพื่อให้มีการเลือกปฏิบัติของตัวเอง
ดาวน์โหลดโมเดลที่เตรียมไว้ล่วงหน้า
การสังเคราะห์ Speech2Video ด้วยการปรับโครงสร้างโครงกระดูก 3 มิติและท่าโพสท่าที่แสดงออก
แม้ว เหลียว*, ซือโป จาง*, เผิง หวาง, ห่าว จู, ซินซิน จูโอ, รุ่ยกัง หยาง PDF ผลลัพธ์วิดีโอ สปอตไลท์ 1 นาที การนำเสนอ 10 นาที
@inproceedings{liao2020speech2video,
title={Speech2video synthesis with 3D skeleton regularization and expressive body poses},
author={Liao, Miao and Zhang, Sibo and Wang, Peng and Zhu, Hao and Zuo, Xinxin and Yang, Ruigang},
booktitle={Proceedings of the Asian Conference on Computer Vision},
year={2020}
}
รหัสนี้ขึ้นอยู่กับกรอบงาน vid2vid