أصدرت Alibaba نموذج فيديو لتوليد الصور I2VGen-XL في نوفمبر، وأخيرًا أصبح كوده ونموذجه مفتوح المصدر رسميًا. يستخدم النموذج طريقة معالجة على مرحلتين، تضمن المرحلة الأولى التماسك الدلالي، وتعمل المرحلة الثانية على تحسين تفاصيل الفيديو ودقته من خلال دمج النص القصير. من خلال التدريب الضخم على البيانات، أظهر I2VGen-XL دقة دلالية أعلى واستمرارية التفاصيل والوضوح في مجال توليد الفيديو، مما أدى إلى تحقيق اختراقات جديدة في مجال الصور لتوليد الفيديو.
أعلنت شركة علي بابا عن نموذج فيديو توليد الصور مفتوح المصدر I2VGen-XL في ورقة بحثية نُشرت في نوفمبر، والآن أصدرت أخيرًا الكود والنموذج المحددين. تتم معالجة النموذج من خلال مرحلتين، أول مرحلة أساسية لضمان التماسك الدلالي، ثم مرحلة التحسين لتحسين تفاصيل الفيديو وتحسين الدقة من خلال دمج النص القصير. قام فريق البحث بجمع كمية كبيرة من البيانات من أجل التحسين، بحيث يتمتع نموذج I2VGen-XL بدقة دلالية أعلى واستمرارية تفصيلية ووضوح في إنشاء مقاطع الفيديو. يمكن العثور على الكود التفصيلي على GitHub.يوفر المصدر المفتوح لنموذج I2VGen-XL موارد قيمة للباحثين والمطورين ويساعد على تعزيز التطوير الإضافي لتكنولوجيا الفيديو لتوليد الصور. يشير تدفق المعالجة الفعال وتأثيرات التوليد الممتازة إلى الإمكانات الهائلة لتكنولوجيا الفيديو المولدة بالذكاء الاصطناعي في المستقبل. نتطلع إلى المزيد من التطبيقات المبتكرة المعتمدة على I2VGen-XL.