تعاونت جامعة بكين مع فريق Kuaishou AI لتطوير إطار عمل جديد لتوليد الفيديو يسمى VideoTetris، والذي نجح في حل مشكلة إنشاء الفيديو المعقد، وتجاوز أداؤه النماذج التجارية مثل Pika وGen-2. يحدد هذا الإطار بشكل مبتكر مهام إنشاء الفيديو المدمجة، ويمكنه إنشاء مقاطع فيديو بدقة وفقًا لتعليمات معقدة، ويدعم إنشاء فيديو طويل وتعليمات تقدمية متعددة الكائنات، مما يؤدي بشكل فعال إلى حل أوجه القصور في النماذج الحالية في معالجة التعليمات والتفاصيل المعقدة، مثل تحديد موقع متعدد بدقة الأشياء والحفاظ على تفاصيلها المميزة.
أخبار من ChinaZ.com يوم 17 يونيو: تعاونت جامعة بكين وفريق Kuaishou AI للتغلب بنجاح على مشكلة إنشاء الفيديو المعقد. لقد اقترحوا إطارًا جديدًا يسمى VideoTetris، والذي يمكنه بسهولة الجمع بين تفاصيل مختلفة مثل اللغز لإنشاء مقاطع فيديو ذات صعوبة عالية وتعليمات معقدة. يتفوق هذا الإطار على النماذج التجارية مثل Pika وGen-2 في مهام إنشاء الفيديو المعقدة.
يحدد إطار عمل VideoTetris مهمة إنشاء الفيديو المدمجة لأول مرة، بما في ذلك مهمتين فرعيتين: 1) إنشاء الفيديو باتباع تعليمات المجموعة المعقدة؛ 2) إنشاء فيديو طويل باتباع تعليمات تدريجية متعددة الكائنات. وجد الفريق أن جميع النماذج مفتوحة المصدر والتجارية الموجودة تقريبًا فشلت في إنشاء مقاطع فيديو صحيحة. على سبيل المثال، إذا أدخلت "كلبًا بنيًا لطيفًا على اليسار وقطة تغفو في الشمس على اليمين"، فغالبًا ما يدمج الفيديو الناتج معلومات حول الكائنين، وهو ما يبدو غريبًا.
في المقابل، يحتفظ VideoTetris بنجاح بجميع معلومات الموقع والميزات التفصيلية. وفي إنشاء مقاطع الفيديو الطويلة، فإنه يدعم تعليمات أكثر تعقيدًا، مثل "الانتقال من سنجاب بني لطيف على كومة من البندق إلى سنجاب بني لطيف وسنجاب أبيض لطيف على كومة من البندق." يتوافق تسلسل مقاطع الفيديو التي تم إنشاؤها مع تعليمات الإدخال، ويستطيع السنجابان تبادل الطعام بشكل طبيعي.
يعتمد إطار عمل VideoTetris طريقة الانتشار الزماني المكاني المشترك. يقوم أولاً بتفكيك المطالبات النصية وفقًا للوقت ويقوم بتعيين معلومات مطالبة مختلفة لإطارات فيديو مختلفة. ثم يتم تفكيك البعد المكاني في كل إطار لتعيين كائنات مختلفة لمناطق فيديو مختلفة. وأخيرًا، يتم تحقيق توليد تعليمات مجمعة فعالة من خلال الانتباه المتبادل الزماني المكاني.
من أجل إنشاء مقاطع فيديو طويلة ذات جودة أعلى، اقترح الفريق أيضًا طريقة محسنة للمعالجة المسبقة لبيانات التدريب لجعل إنشاء مقاطع فيديو طويلة أكثر ديناميكية واستقرارًا. بالإضافة إلى ذلك، تم تقديم آلية انتباه الإطار المرجعي، ويتم استخدام VAE الأصلي لتشفير معلومات الإطار السابقة، والتي تختلف عن النماذج الأخرى التي تستخدم تشفير CLIP، وبالتالي تحقيق اتساق أفضل للمحتوى.
نتيجة التحسين هي أن مقاطع الفيديو الطويلة لم تعد تحتوي على نماذج ألوان بمساحة كبيرة، ويمكن أن تتكيف بشكل أفضل مع التعليمات المعقدة، وتصبح مقاطع الفيديو التي تم إنشاؤها أكثر ديناميكية وطبيعية. قدم الفريق أيضًا مؤشرات تقييم جديدة VBLIP-VQA وVUnidet، مما وسع طريقة تقييم الجيل المدمج لتشمل بُعد الفيديو لأول مرة.
تظهر الاختبارات التجريبية أنه فيما يتعلق بقدرات توليد الفيديو المدمجة، يتفوق نموذج VideoTetris على جميع النماذج مفتوحة المصدر، حتى النماذج التجارية مثل Gen-2 وPika. يُذكر أن الكود سيكون مفتوح المصدر بالكامل.
عنوان المشروع: https://top.aibase.com/tool/videotetris
بشكل عام، حقق إطار عمل VideoTetris اختراقات كبيرة في مجال إنشاء الفيديو المعقد، وتوفر طريقة نشر المجموعة الزمانية المكانية الفعالة ومؤشرات التقييم المبتكرة اتجاهًا جديدًا لتطوير تكنولوجيا توليد الفيديو المستقبلية. يوفر المصدر المفتوح لهذا المشروع أيضًا موارد قيمة لمزيد من الباحثين ويعزز المزيد من التطوير في هذا المجال. ونحن نتطلع إلى أن يتمكن VideoTetris من لعب دور في المزيد من سيناريوهات التطبيق في المستقبل.