تدعم تقنية إنشاء فيديو الوجه التي تعتمد على الصوت JoyVASA شخصيات الحيوانات الصغيرة

الكاتب：Eve Cole وقت التحديث：2024-11-28 19:36:01

تقارير محرر Downcodes: في السنوات الأخيرة، تطورت تقنية الرسوم المتحركة للصور المعتمدة على الصوت بسرعة، لكن النماذج الحالية لا تزال تعاني من اختناقات من حيث الكفاءة والمدة. لحل هذه المشكلة، قام الباحثون بتطوير تقنية جديدة تسمى JoyVASA، والتي تعمل على تحسين جودة وكفاءة الرسوم المتحركة للصور المعتمدة على الصوت بشكل كبير من خلال تصميم مبتكر على مرحلتين. لا تعد JoyVASA قادرة على إنشاء مقاطع فيديو رسوم متحركة أطول فحسب، بل تدعم أيضًا الرسوم المتحركة لوجوه الحيوانات وتظهر توافقًا جيدًا متعدد اللغات، مما يوفر إمكانيات جديدة في مجال إنتاج الرسوم المتحركة.

في الآونة الأخيرة، اقترح الباحثون تقنية جديدة تسمى JoyVASA، والتي تهدف إلى تحسين تأثيرات الصور المتحركة المعتمدة على الصوت. مع التطوير المستمر لنماذج التعلم العميق والنشر، حققت الرسوم المتحركة للصورة المستندة إلى الصوت تقدمًا كبيرًا في جودة الفيديو ودقة مزامنة الشفاه. ومع ذلك، فإن تعقيد النماذج الحالية يزيد من كفاءة التدريب والاستدلال، بينما يحد أيضًا من مدة مقاطع الفيديو واستمراريتها بين الإطارات.

تتبنى JoyVASA تصميمًا من مرحلتين تقدم المرحلة الأولى إطارًا منفصلاً لتمثيل الوجه لفصل تعبيرات الوجه الديناميكية عن تمثيلات الوجه الثابتة ثلاثية الأبعاد.

يمكّن هذا الفصل النظام من الجمع بين أي نموذج وجه ثابت ثلاثي الأبعاد مع تسلسلات حركة ديناميكية لإنشاء مقاطع فيديو متحركة أطول. وفي المرحلة الثانية، قام فريق البحث بتدريب محول نشر يمكنه توليد تسلسلات حركة مباشرة من الإشارات الصوتية، وهي عملية مستقلة عن هوية الشخصية. أخيرًا، يعتمد المولد على تدريب المرحلة الأولى ويأخذ تمثيل الوجه ثلاثي الأبعاد وتسلسل الإجراء الذي تم إنشاؤه كمدخل لتقديم تأثيرات رسوم متحركة عالية الجودة.

والجدير بالذكر أن JoyVASA لا يقتصر على الرسوم المتحركة للصور البشرية، بل يمكنه أيضًا تحريك وجوه الحيوانات بسلاسة. تم تدريب هذا النموذج على مجموعة بيانات مختلطة، تجمع بين البيانات الصينية الخاصة والبيانات العامة باللغة الإنجليزية، مما يُظهر قدرات دعم جيدة متعددة اللغات. تثبت النتائج التجريبية فعالية هذه الطريقة وستركز الأبحاث المستقبلية على تحسين الأداء في الوقت الفعلي وتحسين التحكم في التعبير لتوسيع تطبيق هذا الإطار في الرسوم المتحركة للصور.

يمثل ظهور JoyVASA إنجازًا مهمًا في تكنولوجيا الرسوم المتحركة المعتمدة على الصوت، مما يعزز الإمكانيات الجديدة في مجال الرسوم المتحركة.

مدخل المشروع: https://jdh-algo.github.io/JoyVASA/

يكمن ابتكار تقنية JoyVASA في تصميمها الفعال المكون من مرحلتين وقدرات الدعم القوية متعددة اللغات، مما يوفر حلاً أكثر ملاءمة وكفاءة لإنتاج الرسوم المتحركة. في المستقبل، مع زيادة تحسين التكنولوجيا، من المتوقع أن يتم استخدام JoyVASA على نطاق واسع في المزيد من المجالات، مما يقدم لنا أعمال رسوم متحركة أكثر واقعية وإثارة. نتطلع إلى المزيد من الإنجازات التكنولوجية وقيادة فصل جديد في تطوير صناعة الرسوم المتحركة!