حققت فرق البحث من جامعة نانجينغ وجامعة فودان ومختبر سفينة نوح التابع لشركة هواوي اختراقات كبيرة في مجال البشر الرقميين ثلاثي الأبعاد، مما أدى إلى حل مشاكل عدم كفاية اتساق وجهات النظر المتعددة والتعبير العاطفي في الأساليب الحالية. لقد طوروا طريقة جديدة تتيح تركيب صور رمزية ناطقة ثلاثية الأبعاد مع مشاعر يمكن التحكم فيها وتحقق تحسينات كبيرة في مزامنة الشفاه وجودة العرض. تعتمد نتائج البحث على مجموعة بيانات EmoTalk3D التي تم إنشاؤها حديثًا، والتي تحتوي على مقاطع فيديو معايرة متعددة المشاهدة وتعليقات توضيحية عاطفية ومعلومات هندسية ثلاثية الأبعاد إطارًا بإطار، وتم نشرها للاستخدام البحثي غير التجاري. من خلال إطار رسم الخرائط "من الكلام إلى الهندسة إلى المظهر"، تلتقط هذه الطريقة بدقة تعبيرات الوجه الدقيقة وتحقق عرضًا عالي الدقة تحت زوايا المشاهدة الحرة.
مدخل المنتج: https://nju-3dv.github.io/projects/EmoTalk3D/
لقد قاموا بجمع مجموعة بيانات EmoTalk3D مع مقاطع فيديو متعددة العرض ومعايرة وتعليقات توضيحية للمشاعر وهندسة ثلاثية الأبعاد إطارًا بإطار. وتم اقتراح طريقة جديدة لتجميع الصور الرمزية الناطقة ثلاثية الأبعاد مع مشاعر يمكن التحكم فيها، مع تحسينات كبيرة في مزامنة الشفاه وجودة العرض.
مجموعة البيانات:
من خلال التدريب على مجموعة بيانات EmoTalk3D، قام فريق البحث ببناء إطار رسم الخرائط "من الكلام إلى الهندسة إلى المظهر". يتم توقع تسلسل هندسي ثلاثي الأبعاد واقعي أولاً من خلال الميزات الصوتية، ثم يتم تصنيع مظهر الرأس الناطق ثلاثي الأبعاد الذي يمثله غاوسي رباعي الأبعاد بناءً على الهندسة المتوقعة. يتم تقسيم المظاهر أيضًا إلى Gaussians قياسي وديناميكي، ويتم تعلمها من مقاطع الفيديو متعددة المشاهدة، ويتم دمجها لتقديم رسوم متحركة للرأس الناطق ذات عرض مجاني.
يتيح النموذج التحكم في المشاعر في الصور الرمزية الناطقة التي يتم إنشاؤها ويعرضها عبر نطاق واسع من زوايا المشاهدة. تم إثبات جودة العرض المحسنة والثبات في توليد حركة الشفاه أثناء التقاط تفاصيل الوجه الديناميكية مثل التجاعيد والتعبيرات الدقيقة. في مثال النتائج التي تم إنشاؤها، يتم عرض التعبيرات السعيدة والغاضبة والإحباطية للإنسان الرقمي ثلاثي الأبعاد بدقة.
تحتوي عمليتها الشاملة على خمس وحدات:
الأول عبارة عن أداة تشفير لتحليل المحتوى العاطفي، والتي تقوم بتوزيع المحتوى والميزات العاطفية من خطاب الإدخال؛ والثانية عبارة عن شبكة تحويل الكلام إلى هندسة، والتي تتنبأ بسحب نقطية ديناميكية ثلاثية الأبعاد من الميزات؛ والثالثة عبارة عن وحدة تحسين وإكمال غاوسية يتم إنشاؤها المظهر القياسي؛ والرابع هو الهندسة إلى المظهر. تقوم الشبكة بتجميع مظهر الوجه استنادًا إلى سحابة نقطية ديناميكية ثلاثية الأبعاد؛ والخامس هو وحدة العرض، التي تحول الغاوسي الديناميكي إلى رسوم متحركة مجانية.
بالإضافة إلى ذلك، قاموا ببناء مجموعة بيانات EmoTalk3D، وهي مجموعة بيانات للرؤوس الناطقة متعددة المشاهدات مع شرح للعواطف مع أشكال الوجه ثلاثية الأبعاد إطارًا بإطار، والتي سيتم إتاحتها للجمهور لأغراض بحثية غير تجارية.
أبرز النقاط:
اقتراح طريقة جديدة لتجميع البشر الرقميين بمشاعر يمكن السيطرة عليها.
بناء إطار رسم الخرائط من الكلام إلى الهندسة إلى المظهر.
تم إنشاء مجموعة بيانات EmoTalk3D وهي جاهزة للفتح.
يوفر هذا البحث اتجاهًا جديدًا لتطوير التكنولوجيا البشرية الرقمية ثلاثية الأبعاد، وستوفر الأساليب ومجموعات البيانات المقترحة موارد قيمة للبحث المستقبلي وتعزز تطوير التكنولوجيا البشرية الرقمية ثلاثية الأبعاد التي تكون أكثر واقعية وتعبيرًا عاطفيًا. كما أن افتتاح مجموعة بيانات EmoTalk3D يعزز التعاون والتبادلات في المجتمع الأكاديمي.