تمتلك ByteDance تقنية مزامنة شفاه مبتكرة مفتوحة المصدر تسمى LatentSync، والتي تعتمد على نموذج الانتشار الكامن لظروف الصوت وتحقق مزامنة دقيقة لحركات شفاه الشخصية في الفيديو مع الصوت. إنه يستخدم قوة الانتشار المستقر بشكل مباشر دون الحاجة إلى تمثيل الحركة المتوسطة، ويصمم بشكل فعال الارتباطات السمعية والبصرية المعقدة، ويعزز الاتساق الزمني من خلال تقنية محاذاة التمثيل الزمني (TREPA). يعمل LatentSync أيضًا على تحسين مشكلة التقارب في SyncNet وتحسين دقة مزامنة الشفاه بشكل ملحوظ. تتمتع هذه التقنية بمزايا كبيرة في إطار العمل الشامل والتوليد عالي الجودة والاتساق الزمني وتحسين SyncNet، مما يوفر حلاً جديدًا للرسوم المتحركة للصور الشخصية المعتمدة على الصوت.
لقد وجد أن طرق مزامنة الشفاه القائمة على الانتشار تؤدي أداءً سيئًا من حيث الاتساق الزمني بسبب التناقضات في عملية الانتشار بين الإطارات المختلفة. لحل هذه المشكلة، يقدم LatentSync تقنية محاذاة تمثيل الوقت (TREPA). تعمل TREPA على تعزيز التمثيلات الزمنية المستخرجة من نماذج الفيديو الكبيرة ذاتية الإشراف لمحاذاة الإطارات التي تم إنشاؤها مع الإطارات الحقيقية، وبالتالي تعزيز الاتساق الزمني مع الحفاظ على دقة مزامنة الشفاه.
بالإضافة إلى ذلك، أجرى فريق البحث أيضًا دراسة متعمقة لمشكلة تقارب SyncNet، ومن خلال عدد كبير من الدراسات التجريبية، حدد العوامل الرئيسية التي تؤثر على تقارب SyncNet، بما في ذلك بنية النموذج ومعلمات التدريب الفائقة وطرق المعالجة المسبقة للبيانات. ومن خلال تحسين هذه العوامل، تم تحسين دقة SyncNet في مجموعة اختبار HDTF بشكل ملحوظ من 91% إلى 94%. نظرًا لعدم تغيير إطار التدريب الشامل لـ SyncNet، يمكن أيضًا تطبيق هذه التجربة على مزامنة الشفاه الأخرى وطرق الرسوم المتحركة للصور التي تعتمد على الصوت باستخدام SyncNet.
مزايا LateSync
إطار شامل: قم بإنشاء حركات الشفاه المتزامنة مباشرة من الصوت دون تمثيل الحركة المتوسطة.
إنشاء عالي الجودة: استخدم الإمكانات القوية لـ Stable Diffusion لإنشاء مقاطع فيديو ناطقة ديناميكية وواقعية.
الاتساق الزمني: تعزيز الاتساق الزمني بين إطارات الفيديو من خلال تقنية TREPA.
تحسين SyncNet: حل مشكلة تقارب SyncNet وتحسين دقة مزامنة الشفاه بشكل ملحوظ.
مبدأ العمل
يعتمد جوهر LatentSync على تقنية إصلاح الصورة إلى الصورة، والتي تتطلب إدخال صورة مقنعة كمرجع. ومن أجل دمج السمات المرئية للوجه في الفيديو الأصلي، يقوم النموذج أيضًا بإدخال صور مرجعية. بعد ربط القنوات، يتم إدخال معلومات الإدخال هذه في شبكة U-Net للمعالجة.
يستخدم النموذج مستخرج ميزات الصوت المدرب مسبقًا Whisper لاستخراج التضمينات الصوتية. قد تتأثر حركات الشفاه بصوت الإطارات المحيطة، لذا يقوم النموذج بتجميع صوت الإطارات المحيطة المتعددة كمدخل لتوفير المزيد من المعلومات الزمنية. يتم دمج عمليات تضمين الصوت في U-Net من خلال طبقات الانتباه المتقاطع.
لحل مشكلة أن SyncNet يتطلب إدخال مساحة الصورة، يتنبأ النموذج أولاً في المساحة الصاخبة ثم يحصل على المساحة الكامنة النظيفة المقدرة من خلال طريقة من خطوة واحدة. وجدت الدراسة أن تدريب SyncNet في مساحة البكسل أفضل من التدريب في المساحة الكامنة، وقد يكون ذلك بسبب فقدان معلومات منطقة الشفاه أثناء تشفير VAE.
تنقسم عملية التدريب إلى مرحلتين: في المرحلة الأولى، تتعلم U-Net الميزات المرئية دون فك تشفير مساحة البكسل وتضيف خسارة SyncNet. تضيف المرحلة الثانية خسارة SyncNet باستخدام طريقة الإشراف على مساحة البكسل التي تم فك تشفيرها وتستخدم خسارة LPIPS لتحسين الجودة المرئية للصورة. من أجل التأكد من أن النموذج يتعلم المعلومات الزمنية بشكل صحيح، يجب أن تكون ضوضاء الإدخال أيضًا متسقة مؤقتًا، ويستخدم النموذج نموذج ضوضاء مختلط. بالإضافة إلى ذلك، في مرحلة المعالجة المسبقة للبيانات، يتم استخدام التحويل التقاربي أيضًا لتحقيق الواجهة الأمامية للوجه.
تقنية تريبا
يعمل TREPA على تحسين الاتساق الزمني من خلال محاذاة التمثيلات الزمنية لتسلسلات الصور المولدة والحقيقية. تستخدم هذه الطريقة نموذج الفيديو واسع النطاق الخاضع للإشراف الذاتي VideoMAE-v2 لاستخراج التمثيلات الزمنية. على عكس الأساليب التي تستخدم فقدان المسافة بين الصور فقط، يمكن للتمثيل الزمني التقاط الارتباطات الزمنية في تسلسل الصور، وبالتالي تحسين الاتساق الزمني العام. وقد وجدت الدراسات أن TREPA لا يضر بدقة مزامنة الشفاه فحسب، بل يمكنه تحسينها بالفعل.
قضايا التقارب SyncNet
لقد وجدت الأبحاث أن فقدان التدريب في SyncNet يميل إلى البقاء بالقرب من 0.69 ولا يمكن تقليله أكثر. من خلال التحليل التجريبي المكثف، وجد فريق البحث أن حجم الدفعة ورقم إطار الإدخال وطريقة المعالجة المسبقة للبيانات لها تأثير كبير على تقارب SyncNet. تؤثر بنية النموذج أيضًا على التقارب، ولكن بدرجة أقل.
تظهر النتائج التجريبية أن LatentSync يتفوق على طرق مزامنة الشفاه المتطورة الأخرى في مقاييس متعددة. خاصة فيما يتعلق بدقة مزامنة الشفاه، وذلك بفضل شبكة SyncNet المحسنة وطبقة الانتباه الصوتي، والتي يمكنها التقاط العلاقة بين حركات الصوت والشفاه بشكل أفضل. بالإضافة إلى ذلك، تم تحسين اتساق الوقت في LatentSync بشكل ملحوظ بفضل تقنية TREPA.
عنوان المشروع: https://github.com/bytedance/LatentSync
لقد حقق المصدر المفتوح لـ LatentSync اختراقات جديدة في تطوير تقنية مزامنة الشفاه، وأدائها الفعال والدقيق وأساليب التدريب المحسنة تستحق البحث والتطبيق. ومن المتوقع أن تلعب هذه التقنية مستقبلاً دوراً أكبر في إنتاج الفيديو والواقع الافتراضي وغيرها من المجالات.