تقارير محرر Downcodes: أصدر فريق Zhipu الفني اليوم نموذجًا رئيسيًا مفتوح المصدر لإنشاء فيديو CogVideoX v1.5، وهو ترقية رئيسية أخرى للسلسلة منذ أغسطس. حقق الإصدار الجديد طفرة كبيرة في قدرات إنشاء الفيديو، ودعم مقاطع فيديو أطول ودقة أعلى ومعدلات إطارات أكثر سلاسة، وتم دمجه مع نموذج التأثير الصوتي CogSound الذي تم إطلاقه حديثًا لإنشاء منصة "فيديو واضح جديد" لتزويد المستخدمين بفيديو متميز أفضل تجربة الخلق. لا يعمل هذا التحديث على تحسين جودة الفيديو فحسب، بل يعزز أيضًا قدرة النموذج على فهم الدلالات المعقدة، مما يوفر للمطورين أدوات أكثر قوة.
ومن المفهوم أن هذا التحديث قد أدى إلى تحسين كبير في قدرات إنشاء الفيديو، بما في ذلك دعم مقاطع فيديو مدتها 5 ثوانٍ و10 ثوانٍ، ودقة 768 بكسل، وقدرات إنشاء 16 إطارًا. وفي الوقت نفسه، يدعم نموذج I2V (الصورة إلى الفيديو) أيضًا أي نسبة حجم، مما يعزز القدرة على فهم الدلالات المعقدة.
يحتوي CogVideoX v1.5 على نموذجين رئيسيين: CogVideoX v1.5-5B وCogVideoX v1.5-5B-I2V، وهما مصممان لتزويد المطورين بأدوات أكثر قوة لإنشاء الفيديو.
والأمر الأكثر جدارة بالملاحظة هو أن CogVideoX v1.5 سيتم إطلاقه في نفس الوقت على منصة Qingying ودمجه مع نموذج المؤثرات الصوتية CogSound الذي تم إطلاقه حديثًا ليصبح "New Qingying" . ستوفر Qingying الجديدة عددًا من الخدمات الخاصة، بما في ذلك تحسينات كبيرة في جودة الفيديو والأداء الجمالي وعقلانية الحركة، ودعم إنشاء مقاطع فيديو فائقة الوضوح مدتها 10 ثوانٍ و4K و60 إطارًا.
المقدمة الرسمية هي كما يلي:
تحسين الجودة: تم تحسين قدرة مقاطع فيديو Tusheng بشكل كبير من حيث الجودة والأداء الجمالي وعقلانية الحركة والفهم الدلالي للكلمات السريعة المعقدة.
دقة فائقة الدقة: تدعم إنشاء مقاطع فيديو فائقة الوضوح مقاس 10 ثوانٍ و4K و60 إطارًا.
النسبة المتغيرة: تدعم أي نسبة للتكيف مع سيناريوهات التشغيل المختلفة.
إخراج متعدد القنوات: يمكن لنفس الأمر/الصورة إنشاء 4 مقاطع فيديو في وقت واحد.
فيديو الذكاء الاصطناعي مع مؤثرات صوتية: يمكن لـ Xinqingying إنشاء مؤثرات صوتية تتوافق مع الصورة.
فيما يتعلق بمعالجة البيانات، يركز فريق CogVideoX على تحسين جودة البيانات، وتطوير إطار تصفية آلي لتصفية بيانات الفيديو السيئة، وإطلاق نموذج فهم الفيديو الشامل CogVLM2-caption لإنشاء أوصاف دقيقة للمحتوى. يمكن لهذا النموذج التعامل بشكل فعال مع التعليمات المعقدة والتأكد من أن الفيديو الذي تم إنشاؤه يتوافق مع احتياجات المستخدم.
من أجل تحسين تماسك المحتوى، يستخدم CogVideoX تقنية التشفير التلقائي المتغير ثلاثي الأبعاد (3D VAE) الفعالة، والتي تقلل تكاليف التدريب وصعوبته بشكل كبير. بالإضافة إلى ذلك، قام الفريق أيضًا بتطوير بنية Transformer التي تدمج الأبعاد الثلاثة للنص والزمان والمكان عن طريق إزالة وحدة الانتباه المتبادل التقليدية، ويتم تحسين التأثير التفاعلي للنص والفيديو، وتحسين جودة إنشاء الفيديو.
في المستقبل، سيواصل فريق Zhipu الفني توسيع كمية البيانات وحجم النموذج، واستكشاف بنية نموذجية أكثر كفاءة لتحقيق تجربة أفضل لتوليد الفيديو. لا يوفر المصدر المفتوح لـ CogVideoX v1.5 للمطورين أدوات قوية فحسب، بل يضخ أيضًا حيوية جديدة في مجال إنشاء الفيديو.
الكود: https://github.com/thudm/cogvideo
الموديل: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
تسليط الضوء على:
الإصدار الجديد من CogVideoX v1.5 مفتوح المصدر ويدعم فيديو مدته 5/10 ثوانٍ ودقة 768 بكسل وقدرات إنشاء 16 إطارًا.
تم إطلاق منصة Qingying الجديدة، جنبًا إلى جنب مع نموذج المؤثرات الصوتية CogSound، لتوفير إنشاء فيديو بدقة 4K فائقة الوضوح.
تضمن معالجة البيانات وابتكار الخوارزميات جودة واتساق مقاطع الفيديو التي تم إنشاؤها.
بشكل عام، يمثل المصدر المفتوح لـ CogVideoX v1.5 وإطلاق منصة Qingying الجديدة خطوة مهمة في تقنية إنشاء الفيديو بالذكاء الاصطناعي، مما يوفر أدوات أكثر قوة ومساحة إبداعية أوسع للمطورين والمبدعين. ونحن نتطلع إلى رؤية المزيد من التطبيقات المثيرة التي تعتمد على CogVideoX في المستقبل.