سيأخذك محرر Downcodes إلى فهم تقنية Google ReCapture وكيف ستغير هذه التقنية المتطورة عملية تحرير الفيديو! يتيح ReCapture للمستخدمين العاديين إمكانية إجراء تعديلات على حركة الكاميرا على المستوى الاحترافي بسهولة، وإعادة تصميم لغة عدسة الفيديو، وإحداث تغييرات ثورية في مرحلة ما بعد إنتاج الفيديو. لم تعد هذه التقنية تعتمد على أساليب التمثيل الوسيطة التقليدية رباعية الأبعاد، ولكنها تستخدم بذكاء المعرفة الحركية لنماذج الفيديو التوليدية لتحويل تحرير الفيديو إلى عملية تحويل فيديو إلى فيديو، مما يبسط عملية التشغيل بشكل كبير ويحتفظ بخصائص تفاصيل الفيديو وجودة الصورة.
تعمل أحدث تقنيات ReCapture التي أطلقها فريق بحث Google على تخريب الطريقة التقليدية لتحرير الفيديو. يتيح هذا الابتكار للمستخدمين العاديين تنفيذ تعديلات حركة الكاميرا على المستوى الاحترافي بسهولة وإعادة تصميم لغة العدسة لمقاطع الفيديو الملتقطة بالفعل.
في مرحلة ما بعد إنتاج الفيديو التقليدية، كان تغيير زاوية الكاميرا للفيديو الذي تم التقاطه يمثل دائمًا مشكلة فنية. عندما تتعامل الحلول الحالية مع أنواع مختلفة من محتوى الفيديو، غالبًا ما يكون من الصعب الحفاظ على تأثيرات حركة الكاميرا المعقدة وتفاصيل الصورة في نفس الوقت. يتبع ReCapture نهجًا مختلفًا ولا يستخدم طريقة التمثيل الوسيطة التقليدية رباعية الأبعاد، وبدلاً من ذلك، يستخدم بذكاء معرفة الحركة المخزنة في نموذج الفيديو التوليدي ويعيد تعريف المهمة كعملية تحويل فيديو إلى فيديو من خلال Stable Video Diffusion.
يستخدم النظام سير العمل على مرحلتين. تقوم المرحلة الأولى بإنشاء فيديو التثبيت، وهو إصدار الإخراج الأولي مع موضع الكاميرا الجديد. يمكن تحقيق هذه المرحلة من خلال إنشاء مقاطع فيديو متعددة الزوايا من خلال نماذج الانتشار مثل CAT3D، أو من خلال تقدير عمق إطار بإطار وعرض السحابة النقطية. على الرغم من أن هذا الإصدار قد يحتوي على بعض التناقضات في التوقيت والعيوب البصرية، إلا أنه وضع الأساس للمرحلة الثانية.
تطبق المرحلة الثانية ضبطًا دقيقًا للفيديو المقنع، مع الاستفادة من نموذج فيديو توليدي تم تدريبه على اللقطات الموجودة لإنشاء تأثيرات حركة واقعية وتغييرات في التوقيت. يقدم النظام طبقة LoRA (تكيف منخفض الرتبة) مؤقتة لتحسين النموذج حتى يتمكن من فهم وتكرار الخصائص الديناميكية المحددة لمقاطع الفيديو الثابتة دون إعادة تدريب النموذج بأكمله. وفي الوقت نفسه، تضمن طبقة LoRA المكانية توافق تفاصيل الصورة ومحتواها مع حركة الكاميرا الجديدة. يتيح ذلك لنموذج الفيديو التوليدي إكمال العمليات مثل التكبير/التصغير والتحريك والإمالة مع الحفاظ على الحركة المميزة للفيديو الأصلي.
على الرغم من أن ReCapture قد حقق تقدمًا مهمًا في معالجة الفيديو سهلة الاستخدام، إلا أنه لا يزال في مرحلة البحث ولا يزال بعيدًا عن التطبيق التجاري. ومن الجدير بالذكر أنه على الرغم من أن جوجل لديها العديد من مشاريع الذكاء الاصطناعي للفيديو، إلا أنها لم تطرحها في السوق بعد، ومن بينها مشروع Veo قد يكون الأقرب للاستخدام التجاري. وبالمثل، فإن نموذج Movie-Gen الذي أطلقته شركة Meta مؤخرًا، ونموذج Sora الذي أطلقته شركة OpenAI والذي تم إصداره في بداية العام، لم يتم تسويقهما بعد. حاليًا، تقود سوق الذكاء الاصطناعي للفيديو بشكل أساسي شركات ناشئة مثل Runway، التي أطلقت أحدث طراز Gen-3Alpha في الصيف الماضي.
يبشر ظهور تقنية ReCapture باتجاه التطوير المستقبلي في مجال تحرير الفيديو، على الرغم من أنها لا تزال في مرحلة البحث، إلا أن وظائفها القوية وأساليب التشغيل المريحة ستوفر بلا شك المزيد من الإمكانيات لإنشاء الفيديو. ونحن نتطلع إلى النضج المبكر والتطبيق التجاري لهذه التكنولوجيا في المستقبل، مما يوفر تجربة تحرير فيديو أكثر ملاءمة وكفاءة لغالبية المستخدمين.