تعاونت Adobe مع معهد ماساتشوستس للتكنولوجيا لإنشاء نموذج إنشاء فيديو CausVid مع تأخير الإطار الأول بمقدار 1.3 ثانية فقط!

الكاتب：Eve Cole وقت التحديث：2024-12-20 12:16:01

تكنولوجيا توليد الفيديو تشهد تغيرات ثورية! قل وداعًا لعمليات العرض البطيئة ورحب بعصر الإنشاء في الوقت الفعلي! يحطم نموذج CausVid الذي تم إنشاؤه بشكل مشترك بين Adobe وMIT سجل الكفاءة في مجال إنشاء الفيديو بسرعته المذهلة البالغة 9.4 إطارًا في الثانية وتأخير الإطار الأول بمقدار 1.3 ثانية. تعتمد هذه التقنية المتقدمة على طريقة توليد "سببية" جديدة، والتي تعمل على تحسين سرعة التوليد بشكل كبير من خلال التنبؤ بمحتوى الإطار التالي، وتكملها تقنيات متقدمة مثل "التقطير غير المتماثل" و"تهيئة ODE" و"ذاكرة التخزين المؤقت KV" " لتحقيق إنشاء مقاطع فيديو عالية الجودة في الوقت الفعلي.

هل تتذكر تلك السنوات التي انتظرنا فيها وقتًا طويلاً حتى يتمكن نموذج إنشاء الفيديو من عرض كل إطار؟ الآن، قل وداعًا لسرعة السلحفاة ورحب بسرعة الضوء! تضافرت جهود Adobe وMIT لإطلاق نموذج إنشاء فيديو "سببي". CausVid، يمكنه إنشاء فيديو عالي الجودة في الوقت الفعلي بسرعة 9.4 إطارًا في الثانية، مع تأخير الإطار الأول بمقدار 1.3 ثانية فقط. ستغير هذه التقنية المتقدمة طريقة إنشاء محتوى الفيديو تمامًا، مما يجلب فوائد غير محدودة للمجالات من الألعاب والواقع الافتراضي ووسائط البث الممكنة!

يشبه نموذج إنشاء الفيديو التقليدي "الحرفي القديم" الذي يعمل ببطء وحذر. يحتاج إلى تحليل تسلسل الفيديو بالكامل بعناية لإنشاء كل إطار، وبالتالي فإن سرعة التوليد بطيئة جدًا. يجب على المستخدمين الانتظار بصبر لمدة دقائق أو حتى ساعات لمشاهدة الفيديو الكامل، وهو ما يمثل كارثة لسيناريوهات التطبيق التي تتطلب ردود فعل سريعة وتفاعلًا في الوقت الفعلي.

CausVid هو "رجل فلاش" ذو مهارات عالية يستخدم طريقة توليد "سببية" جديدة ويحتاج فقط إلى معالجة الإطارات التي تم إنشاؤها للتنبؤ بمحتوى الإطار التالي، تمامًا كما نتحدث كلمة تلو الأخرى، بسلاسة وطبيعية. تقلل هذه الطريقة بشكل كبير من الحمل الحسابي وتزيد من سرعة إنشاء الفيديو بعشرات المرات!

كيف قام CausVid بتطوير "سحر البرق" هذا؟

السلاح السري هو تقنية "التقطير غير المتماثل"! قام الباحثون أولاً بتدريب نموذج نشر قوي "ثنائي الاتجاه"، يمكنه إنشاء مقاطع فيديو عالية الجودة مثل "الحرفي القديم"، ولكن بسرعة أبطأ. ثم استخدموا المعرفة بهذا النموذج لتدريب CausVid، وهو نموذج توليدي "سببي"، بحيث يتعلم التنبؤ بسرعة بمحتوى الإطار التالي.

من أجل زيادة تحسين كفاءة CausVid، قدم الباحثون أيضًا تقنيات مثل "تهيئة ODE" و"ذاكرة التخزين المؤقت KV" لجعلها تعمل بشكل أسرع وأكثر استقرارًا أثناء التدريب والاستدلال. في النهاية، يحقق CausVid سرعات إنشاء مذهلة، مما ينقل إنشاء محتوى الفيديو إلى عصر جديد من التفاعل في الوقت الفعلي!

CausVid ليس سريعًا فحسب، بل قوي أيضًا، فهو يدعم مجموعة متنوعة من مهام إنشاء الفيديو، بما في ذلك تحويل النص إلى فيديو، وتحويل الصورة إلى فيديو، وتحويل الفيديو إلى فيديو، والمطالبات الديناميكية، والمزيد، كل ذلك بزمن وصول منخفض للغاية!

تخيل أنه يمكننا في المستقبل استخدام CausVid لإنشاء مشاهد الألعاب في الوقت الفعلي، أو تحرير مقاطع الفيديو في الوقت الفعلي بناءً على أصواتنا وأفعالنا، مما سيؤدي إلى إحداث تغييرات ثورية في مجالات الألعاب والواقع الافتراضي ووسائط البث! يمثل CausVid بداية الفيديو طفرة كبيرة في مجال التوليد. سوف يُحدث ثورة في الطريقة التي ننشئ بها محتوى الفيديو ونستهلكه، مما يفتح أمامنا مستقبلًا مليئًا بالإمكانيات التي لا نهاية لها!

عنوان المشروع: https://causvid.github.io/

لقد جلب ظهور CausVid بلا شك أملًا جديدًا في مجال إنشاء الفيديو. وستعمل سرعة توليده الفعالة ووظائفه القوية على تعزيز الابتكار والتطوير في المجالات ذات الصلة بشكل كبير.