اقترح باحثو Meta AI طريقة خالية من التدريب تسمى AdaCache، مصممة لتسريع سرعة الاستدلال لنماذج محولات نشر الفيديو (DiTs). تعمل DiTs بشكل جيد في مجال توليد الفيديو، ولكن حجم النموذج الكبير وآلية الاهتمام المعقدة تؤدي إلى بطء سرعة الاستدلال، مما يحد من تطبيقها. يستفيد AdaCache بذكاء من حقيقة أن "ليست كل مقاطع الفيديو متماثلة" عن طريق تخزين نتائج الحسابات مؤقتًا وتخصيص استراتيجية التخزين المؤقت لكل فيديو، مما يؤدي إلى تحسين كفاءة الاستدلال بشكل كبير مع ضمان جودة التوليد. سيشرح لك محرر Downcodes هذه التقنية بالتفصيل.
يتطلب إنشاء مقاطع فيديو عالية الجودة ومستمرة موارد حسابية كبيرة، خاصة لفترات زمنية أطول. على الرغم من أن أحدث نماذج Diffusion Transformer (DiTs) قد حققت تقدمًا كبيرًا في توليد الفيديو، إلا أن هذا التحدي يتفاقم بسبب الاستدلال البطيء بسبب اعتمادها على نماذج أكبر وآليات انتباه أكثر تعقيدًا. لحل هذه المشكلة، اقترح الباحثون في Meta AI طريقة خالية من التدريب تسمى AdaCache لتسريع عمليات DiTs للفيديو.
تعتمد الفكرة الأساسية لـ AdaCache على حقيقة أن "ليست كل مقاطع الفيديو متشابهة"، مما يعني أن بعض مقاطع الفيديو تتطلب خطوات تقليل الضوضاء أقل من غيرها لتحقيق جودة معقولة. وبناءً على ذلك، لا تقوم هذه الطريقة بتخزين نتائج الحساب مؤقتًا أثناء عملية النشر فحسب، بل تصمم أيضًا استراتيجية تخزين مؤقت مخصصة لكل جيل فيديو، وبالتالي زيادة المفاضلة بين الجودة ووقت الاستجابة.
قدم الباحثون أيضًا نظام تنظيم الحركة (MoReg)، الذي يستخدم معلومات الفيديو في AdaCache للتحكم في تخصيص موارد الحوسبة وفقًا لمحتوى الحركة. نظرًا لأن تسلسلات الفيديو التي تحتوي على مواد عالية التردد وكميات كبيرة من محتوى الحركة تتطلب المزيد من خطوات النشر لتحقيق جودة معقولة، يمكن لـ MoReg تخصيص الموارد الحسابية بشكل أفضل.
تظهر النتائج التجريبية أن AdaCache يمكنه تحسين سرعة الاستدلال بشكل كبير (على سبيل المثال، تسريع يصل إلى 4.7x في إنشاء فيديو Open-Sora720p-2s) دون التضحية بجودة التوليد. بالإضافة إلى ذلك، يتمتع AdaCache أيضًا بقدرة تعميمية جيدة ويمكن تطبيقه على نماذج DiT فيديو مختلفة، مثل Open-Sora وOpen-Sora-Plan وLatte. يوفر AdaCache مزايا كبيرة من حيث السرعة والجودة مقارنة بطرق التسريع الأخرى الخالية من التدريب مثل Δ-DiT وT-GATE وPAB.
تظهر دراسات المستخدم أن المستخدمين يفضلون مقاطع الفيديو التي تم إنشاؤها بواسطة AdaCache على الطرق الأخرى ويعتبرون أن جودتها قابلة للمقارنة بالنماذج الأساسية. تؤكد هذه الدراسة فعالية AdaCache وتقدم مساهمة مهمة في مجال إنشاء الفيديو بكفاءة. تعتقد Meta AI أنه يمكن استخدام AdaCache على نطاق واسع وتعزيز تعميم إنشاء مقاطع فيديو طويلة عالية الدقة.
الورقة: https://arxiv.org/abs/2411.02397
الصفحة الرئيسية للمشروع:
https://adacache-dit.github.io/
جيثب:
https://github.com/AdaCache-DiT/AdaCache
بشكل عام، يوفر AdaCache طريقة جديدة وفعالة لإنشاء مقاطع فيديو فعالة، كما أن تحسين أدائه الكبير وتجربة المستخدم الجيدة تجعله ذو إمكانات كبيرة للتطبيقات المستقبلية. يعتقد محرر Downcodes أن ظهور AdaCache سيعزز التطوير الإضافي لإنشاء مقاطع فيديو طويلة عالية الدقة.