عقدت Meta شراكة مع جامعة الملك عبد الله للتكنولوجيا (KAUST) في المملكة العربية السعودية لإطلاق سلسلة جديدة من نماذج نشر الفيديو تسمى Mardini. يمكن لهذا النموذج إكمال مجموعة متنوعة من مهام توليد الفيديو بكفاءة ، بما في ذلك استيفاء الفيديو ، وتحويل صورة إلى الفيديو ، وتوسيع الفيديو ، مما يؤدي إلى تبسيط عملية إنشاء الفيديو عالية الجودة بشكل كبير. يستخدم Mardini مزيجًا من نماذج التخطيط والنماذج التوليدية لإنشاء مقاطع فيديو عالية الجودة مع خطوات أقل من خلال أساليب القناع التلقائي (MAR) وعمليات الانتشار ، مما يدل على مزايا كبيرة في الأداء والكفاءة ، وتزويد منشئي الفيديو بأدوات قوية ووضع معايير جديدة في الصناعة.
استنادًا إلى العام الماضي ، بذلت Meta جهودًا أخرى في مجال توليد مقاطع فيديو الذكاء الاصطناعى. في السابق ، أطلقت نماذج النص والتحرير مثل EMU Video و EMU Edit. هذا العام ، تم إطلاق فيلم محرر الفيديو المتقدم أيضًا. هذا يدل على أن Meta ملتزم بتزويد منشئي الفيديو بأدوات أكثر قوة.
تتمثل قوة Mardini في أنه يمكنها إنشاء مقاطع فيديو تعتمد على أي عدد من الإطارات المقنعة ، ويدعم مجموعة متنوعة من مهام التوليد ، مثل الاستيفاء بالفيديو ، وتحويل صورة إلى الفيديو ، وتوسيع الفيديو.
صورة لنتائج الفيديومن بينها ، تطبيق Mardini الرئيسي هو جيل صورة إلى فنية. يتم توضيح هذه الميزة باستخدام إطار مرجعي يتم وضعه في الوسط كإدخال مشروط وإنشاء 16 إطارًا إضافيًا. في مثال الفيديو الذي تم إنشاؤه الرسمي ، يمكن إنشاء 17 إطارًا تم تقديمه في 8 إطارًا في الثانية لمقطع فيديو ناعم لمدة ثانية.
نتائج تمديد الفيديويمكّنك Mardini أيضًا من توسيع الفيديو الخاص بك عن طريق ضبط مقاطع الفيديو الموجودة لأي فترة زمنية. نضيف 12 إطارًا جديدًا إلى كل تسلسل عن طريق إنشاء امتداد مدته 2 ثانية من مقطع فيديو مرجعي 5 إطار.
نتائج الاستيفاء بالفيديويقوم Mardini بتنفيذ استيفاء الفيديو عن طريق توليد إطارات وسيطة باستخدام الإطارات الأولى والأخيرة كإشارات ضبط. عندما تكون هذه الإطارات الحدودية هي نفسها ، يمكن لمارديني إنشاء مقاطع فيديو حلقة سلسة.
كيف يعمل Mardini أمر مثير للاهتمام للغاية. يعتمد تقنية توليد الفيديو المتقدمة والفعالة ، ويتألف بشكل أساسي من جزأين: نموذج التخطيط والنموذج التوليدي. أولاً ، يستخدم نموذج التخطيط طريقة القناع التلقائي (MAR) لتفسير إطارات الإدخال منخفضة الدقة ، وتوليد إشارات إرشادات للإطارات التي تحتاج إلى إنشاء. يقوم النموذج التوليدي الخفيف بالوزن بعد ذلك بإنشاء إطارات مفصلة عالية الدقة من خلال عملية الانتشار ، مما يضمن أن يكون الفيديو النهائي سلسًا وجيدًا بصريًا.
على عكس العديد من نماذج الفيديو التي تتطلب نماذج صور معقدة تم تدريبها مسبقًا ، يدعي Mardini تدريبًا من نقطة الصفر باستخدام بيانات الفيديو غير المخصصة. وذلك لأنه يتبنى استراتيجية تدريبية تدريجية ، والتي تسمح للنموذج بالتعامل بشكل أفضل مع تكوينات الإطار المختلفة عن طريق ضبط طريقة التقنيع للإطارات بمرونة أثناء التدريب.
ميزة مميزة لمارديني هي مرونتها وأدائها. إنها ليست قوية فحسب ، بل فعالة أيضًا ، مناسبة للمهام الكبيرة. يمكن لهذا النموذج التعامل مع مجموعة متنوعة من المهام مثل استيفاء الفيديو ، وتوليد صورة إلى فنية ، وتوسيع الفيديو ، سواء كان ذلك تجانس مقاطع الفيديو الموجودة أو إنشاء تسلسل كامل من نقطة الصفر.
فيما يتعلق بالأداء ، يقوم Mardini بتعيين معايير جديدة لإنشاء فيديو عالي الجودة بخطوات أقل ، مما يجعله أكثر تكلفة ووقت من البدائل الأكثر تعقيدًا. "يظهر بحثنا أن استراتيجية النمذجة الخاصة بنا توضح القدرة التنافسية في مجموعة متنوعة من معايير الاستيفاء والرسوم المتحركة ، مع تقليل الطلب الحسابي على مقاييس المعلمات المماثلة" ، أشارت ورقة البحث الرسمية.
مدخل المشروع: https://mardini-vidgen.github.io/
النقاط الرئيسية:
Mardini هو طراز جديد لتوليد الفيديو من الجيل الجديد الذي تم إطلاقه بواسطة Meta و Kaust ، والذي يمكنه بسهولة إكمال مجموعة متنوعة من مهام إنشاء الفيديو بسهولة.
يحقق هذا النموذج الاستيفاء الفعال للفيديو وتوليد صورة إلى فنية من خلال مجموعة من نماذج التخطيط والتوليد.
يقوم Mardini بإنشاء مقاطع فيديو عالية الجودة مع خطوات أقل ، مما يحسن بشكل كبير من المرونة وكفاءة الخلق.
باختصار ، يمثل ظهور Mardini تقدمًا كبيرًا في تقنية توليد الفيديو ، مع أدائها الفعال وسيناريوهات التطبيق المرنة التي تجلب إمكانيات جديدة إلى مجال إنشاء الفيديو. في المستقبل ، قد يلعب Mardini دورًا أكبر في إنتاج الأفلام وإنتاج الرسوم المتحركة وغيرها من المجالات التي تتطلب توليد الفيديو.