أحرزت تقنية توليد الفيديو تقدماً كبيراً في السنوات الأخيرة ، ولكن لا يزال لدى النماذج الحالية قيود في التقاط الحركة المعقدة والظواهر البدنية. اقترح فريق أبحاث Meta إطار عمل VideoJam ، بهدف تعزيز التعبير عن الحركة لنماذج توليد الفيديو من خلال تمثيل الحركة المشتركة.
في مجال توليد الفيديو ، على الرغم من التقدم الكبير في السنوات الأخيرة ، لا تزال النماذج التوليدية الحالية تكافح لالتقاط الحركة المعقدة والظواهر الديناميكية والفيزيائية في الواقع. ينبع هذا القيد بشكل رئيسي من أهداف إعادة بناء البكسل التقليدية ، والتي تميل إلى تحسين واقعية المظهر وتجاهل تناسق الحركة.
لمعالجة هذه المشكلة ، اقترح فريق البحث في Meta إطارًا جديدًا يسمى VideoJam ، والذي يهدف إلى ضخ أجور الحركة الفعالة في نماذج توليد الفيديو من خلال تشجيع النماذج على تعلم تمثيلات الحركة المشتركة.
يحتوي إطار VideoJam على وحدتين تكميلين. خلال مرحلة التدريب ، يمتد الإطار الهدف من التنبؤ بالبكسلات التي تم إنشاؤها والحركة المقابلة ، سواء من تمثيل تعليمي واحد.
خلال مرحلة التفكير ، قدم فريق البحث آلية تسمى "التوجيه الجوهري" التي توجه عملية التوليد نحو اتجاه حركة ثابت من خلال استخدام التنبؤ بالحركة المتطورة للنموذج كإشارة إرشادية ديناميكية. تجدر الإشارة إلى أنه يمكن تطبيق VideoJam على أي نموذج لتوليد الفيديو دون تعديل بيانات التدريب أو توسيع النموذج.
لقد أثبت VideoJam أنه مستوى رائد في الصناعة في تناسق الحركة ، متجاوزًا العديد من النماذج ذات المنافسة التنافسية العالية مع تحسين الجودة المرئية للصور التي تم إنشاؤها. تؤكد نتائج الدراسة هذه على العلاقة التكميلية بين المظهر والحركة ، والتي يمكن أن تحسن بشكل كبير من التأثير البصري وتماسك الحركة لتوليد الفيديو عندما يتم دمج الاثنين بشكل فعال.
بالإضافة إلى ذلك ، أظهر فريق الأبحاث الأداء الممتاز لـ VideoJam-30B في توليد أنواع الرياضة المعقدة ، بما في ذلك مشاهد مثل Skateboarders Jumping و Pallet Dancers يدورون على البحيرة. بمقارنة نموذج Bibase DIT-30B ، وجدت الدراسة أن VideoJam قد حسّن بشكل كبير من جودة توليد الحركة.
مدخل المشروع: https://hila-chefer.github.io/videojam-paper.github.io/
النقاط الرئيسية:
يعزز إطار عمل VideoJam التعبير عن الحركة لنماذج توليد الفيديو من خلال تمثيل الحركة المشتركة.
أثناء التدريب ، يمكن أن يتنبأ VideoJam وحركة وحركة في وقت واحد ، مما يعزز اتساق المحتوى الذي تم إنشاؤه.
لقد ثبت أن VideoJam يتجاوز نماذج تنافسية متعددة في كل من تناسق الحركة والجودة البصرية.
لقد جلب Framework Meta's VideoJam اختراقات جديدة لتكنولوجيا توليد الفيديو من خلال المظهر المشترك وتمثيل الحركة ، وقد حسنت بشكل كبير من اتساق الحركة والجودة المرئية لمقاطع الفيديو التي تم إنشاؤها ، مما يوفر اتجاهًا جديدًا لتطوير تقنية توليد الفيديو في المستقبل.