يستخدم أحدث إطار عمل لمزامنة الشفاه LatentSync الذي أصدرته ByteDance نموذج الانتشار الكامن الصوتي المشروط استنادًا إلى Stable Diffusion لتحقيق تأثير مزامنة الشفاه أكثر دقة وكفاءة. يختلف LatentSync عن الطرق السابقة، ويعتمد نهجًا شاملاً لنمذجة العلاقة المعقدة بين الصوت والرؤية بشكل مباشر دون الحاجة إلى تمثيل حركة وسيطة، مما يؤدي إلى تحسين كفاءة المعالجة ودقة المزامنة بشكل كبير. يستخدم هذا الإطار بذكاء Whisper لتضمين الصوت ويجمعه مع آلية TREPA لتعزيز الاتساق الزمني، مما يضمن أن يحافظ الفيديو الناتج على التماسك الزمني مع الحفاظ على دقة مزامنة الشفاه.
أصدرت ByteDance مؤخرًا إطارًا جديدًا لمزامنة الشفاه يسمى LatentSync، والذي يهدف إلى استخدام نموذج الانتشار الكامن لحالة الصوت لتحقيق مزامنة أكثر دقة للشفاه. يعتمد الإطار على الانتشار المستقر وهو مُحسّن لاتساق الوقت.
على عكس الطرق السابقة القائمة على الانتشار المكاني للبكسل أو التوليد على مرحلتين، يتبنى LatentSync نهجًا شاملاً دون الحاجة إلى تمثيل الحركة المتوسطة ويمكنه تصميم العلاقات الصوتية والمرئية المعقدة بشكل مباشر.
في إطار عمل LatentSync، تم استخدام Whisper لأول مرة لتحويل الطيف الصوتي إلى تضمينات صوتية ودمجها في نموذج U-Net من خلال طبقات الانتباه المتقاطع. يقوم الإطار بإجراء تسلسل على مستوى القناة للإطارات المرجعية وإطارات القناع مع متغيرات الضوضاء الكامنة كمدخلات إلى U-Net.
أثناء التدريب، يتم استخدام نهج من خطوة واحدة لتقدير المتغيرات الكامنة النظيفة من ضوضاء التنبؤ ثم فك التشفير لإنشاء إطارات نظيفة. في الوقت نفسه، يقدم النموذج آلية محاذاة التمثيل الزمني (TREPA) لتعزيز الاتساق الزمني والتأكد من أن الفيديو الذي تم إنشاؤه يمكن أن يحافظ على التماسك الزمني مع الحفاظ على دقة تزامن الشفاه.
ولإثبات فعالية هذه التقنية، يقدم المشروع سلسلة من نماذج مقاطع الفيديو، تعرض الفيديو الأصلي والفيديو المتزامن مع الشفاه. من خلال الأمثلة، يمكن للمستخدمين أن يشعروا بشكل بديهي بالتقدم الكبير الذي أحرزه LatentSync في مزامنة شفاه الفيديو.
الفيديو الأصلي:
إخراج الفيديو:
بالإضافة إلى ذلك، يخطط المشروع أيضًا لفتح كود الاستدلال ونقاط التفتيش المصدرية لتسهيل تدريب المستخدمين واختبارهم. بالنسبة للمستخدمين الذين يرغبون في تجربة الاستدلال، ما عليك سوى تنزيل ملفات وزن النموذج الضرورية وستكون جاهزًا للبدء. كما تم تصميم عملية معالجة بيانات كاملة، تغطي كل خطوة بدءًا من معالجة ملفات الفيديو وحتى محاذاة الوجه، مما يضمن إمكانية بدء المستخدمين بسهولة.
مدخل المشروع النموذجي: https://github.com/bytedance/LatentSync
أبرز النقاط:
LatentSync هو إطار عمل للمزامنة من طرف إلى منفذ يعتمد على نموذج الانتشار الكامن المشروط للصوت دون الحاجة إلى تمثيلات الحركة المتوسطة.
يستخدم الإطار Whisper لتحويل الطيف الصوتي إلى تضمينات، مما يعزز دقة النموذج والاتساق الزمني أثناء مزامنة الشفاه.
يوفر المشروع سلسلة من نماذج مقاطع الفيديو، ويخطط لفتح أكواد المصدر ذات الصلة وعمليات معالجة البيانات لتسهيل استخدام المستخدم وتدريبه.
المصدر المفتوح وسهولة الاستخدام لـ LatentSync سيعززان التطوير الإضافي وتطبيق تقنية مزامنة الشفاه، مما يوفر إمكانيات جديدة في مجالات تحرير الفيديو وإنشاء المحتوى. ونتطلع إلى التحديثات اللاحقة لهذا المشروع، والتي ستجلب المزيد من المفاجآت.