حققت تكنولوجيا الرسوم المتحركة للصور المبنية على الصوت تقدما كبيرا في السنوات الأخيرة، ولكن مشاكل التعقيد والكفاءة في النماذج الحالية تحد من تطبيقها. ولحل هذه المشكلات، طور الباحثون تقنية جديدة تسمى JoyVASA، والتي تعمل على تحسين الجودة والكفاءة ونطاق تطبيق الرسوم المتحركة للصور المستندة إلى الصوت بشكل كبير من خلال تصميم مبتكر على مرحلتين. لا تعد JoyVASA قادرة على إنشاء مقاطع فيديو رسوم متحركة أطول فحسب، بل يمكنها أيضًا تحريك صور الإنسان ووجوه الحيوانات، وتدعم لغات متعددة.
في الآونة الأخيرة، اقترح الباحثون تقنية جديدة تسمى JoyVASA، والتي تهدف إلى تحسين تأثيرات الصور المتحركة المعتمدة على الصوت. مع التطوير المستمر لنماذج التعلم العميق والنشر، حققت الرسوم المتحركة للصورة المستندة إلى الصوت تقدمًا كبيرًا في جودة الفيديو ودقة مزامنة الشفاه. ومع ذلك، فإن تعقيد النماذج الحالية يزيد من كفاءة التدريب والاستدلال، بينما يحد أيضًا من مدة مقاطع الفيديو واستمراريتها بين الإطارات.
تتبنى JoyVASA تصميمًا من مرحلتين تقدم المرحلة الأولى إطارًا منفصلاً لتمثيل الوجه لفصل تعبيرات الوجه الديناميكية عن تمثيلات الوجه الثابتة ثلاثية الأبعاد.
يمكّن هذا الفصل النظام من الجمع بين أي نموذج وجه ثابت ثلاثي الأبعاد مع تسلسلات حركة ديناميكية لإنشاء مقاطع فيديو متحركة أطول. وفي المرحلة الثانية، قام فريق البحث بتدريب محول نشر يمكنه توليد تسلسلات حركة مباشرة من الإشارات الصوتية، وهي عملية مستقلة عن هوية الشخصية. أخيرًا، يعتمد المولد على تدريب المرحلة الأولى ويأخذ تمثيل الوجه ثلاثي الأبعاد وتسلسل الإجراء الذي تم إنشاؤه كمدخل لتقديم تأثيرات رسوم متحركة عالية الجودة.
والجدير بالذكر أن JoyVASA لا يقتصر على الرسوم المتحركة للصور البشرية، بل يمكنه أيضًا تحريك وجوه الحيوانات بسلاسة. تم تدريب هذا النموذج على مجموعة بيانات مختلطة، تجمع بين البيانات الصينية الخاصة والبيانات العامة باللغة الإنجليزية، مما يُظهر قدرات دعم جيدة متعددة اللغات. تثبت النتائج التجريبية فعالية هذه الطريقة وستركز الأبحاث المستقبلية على تحسين الأداء في الوقت الفعلي وتحسين التحكم في التعبير لتوسيع تطبيق هذا الإطار في الرسوم المتحركة للصور.
يمثل ظهور JoyVASA إنجازًا مهمًا في تكنولوجيا الرسوم المتحركة المعتمدة على الصوت، مما يعزز الإمكانيات الجديدة في مجال الرسوم المتحركة.
مدخل المشروع: https://jdh-algo.github.io/JoyVASA/
تسليط الضوء على:
تتيح تقنية JoyVASA إمكانية إنشاء فيديو رسوم متحركة أطول من خلال فصل تعبيرات الوجه عن النماذج ثلاثية الأبعاد.
يمكن لهذه التقنية إنشاء تسلسلات حركة بناءً على الإشارات الصوتية، ولديها القدرة المزدوجة للرسوم المتحركة للشخصيات والحيوانات.
تم تدريب JoyVASA على مجموعات البيانات الصينية والإنجليزية، ولديها دعم متعدد اللغات، وتوفر الخدمات للمستخدمين في جميع أنحاء العالم.
يكمن ابتكار تقنية JoyVASA في تصميمها المنفصل والاستخدام الفعال للإشارات الصوتية، مما يوفر اتجاهًا جديدًا للتطوير المستقبلي لتقنية الرسوم المتحركة للصور المعتمدة على الصوت، كما أن دعمها متعدد اللغات وإمكانيات إنشاء الرسوم المتحركة الفعالة يجعلها تطبيقًا مستخدمًا على نطاق واسع الآفاق. من المتوقع أن تتمكن JoyVASA من تحسين الأداء في الوقت الفعلي وتحقيق تحكم أكثر تطوراً في التعبير في المستقبل.