أطلقت Beijing Zhipu Huazhang Technology Co. بعد إصدارها في أوائل أغسطس ، أصبحت سلسلة Cogvideox سرعان ما محور الصناعة من خلال التكنولوجيا الرائدة والميزات الصديقة للمطورين. جلب هذا التحديث العديد من التحسينات ، بما في ذلك دعم توليد الفيديو الأطول والعالي الدقة ، بالإضافة إلى تحسن كبير في الجودة والفهم الدلالي لمقطع فيديو توليد الصور ، مما يوفر للمستخدمين تجربة أفضل لتوليد الفيديو من الذكاء الاصطناعي. والأكثر جديرة بالذكر هو أن الإصدار الجديد يدمج منصة Qingying ونموذج تأثير الصوت Cogsound ، مما يزيد من تحسين النظام الإيكولوجي لتوليد الفيديو.
يتضمن محتوى هذا المصدر المفتوح نموذجين: Cogvideox v1.5-5b و cogvideox v1.5-5b-i2v. سيتم أيضًا إطلاق الإصدار الجديد على منصة Qingying في وقت واحد ، وسيتم دمجه مع نموذج تأثير Cogsound الذي تم إطلاقه حديثًا لتوفير تحسين الجودة ، ودعم دقة التعريف الفائق ، والنسب المتغيرة للتكيف مع سيناريوهات التشغيل المختلفة ، متعددة القنوات الإخراج ، ومقاطع فيديو الذكاء الاصطناعي مع المؤثرات الصوتية.
على المستوى التقني ، يقوم Cogvideox V1.5 بتصفية بيانات الفيديو التي تفتقر إلى الاتصال الديناميكي من خلال إطار تصفية آلي ، ويستخدم نموذجًا لفهم الفيديو الشامل ، و COGVLM2-Caption لإنشاء أوصاف محتوى فيديو دقيقة ، وتحسين فهم النص والتعليمات القدرات. بالإضافة إلى ذلك ، يتبنى الإصدار الجديد جهازًا تلقائيًا ثلاثي الأبعاد فعال (3D VAE) لحل مشكلة تماسك المحتوى ، ويقوم بشكل مستقل بتطوير بنية محولات تدمج النص ثلاثي الأبعاد والوقت والمكان ، وتلغي وحدة الالتقاء التقليدي التقليدي ، وتكنولوجيا تطبيع الطبقة التكيفية الخبراء تعمل على تحسين استخدام معلومات الخطوة الزمنية في نموذج الانتشار.
فيما يتعلق بالتدريب ، يقوم Cogvideox V1.5 ببناء إطار تدريب فعال لنموذج الانتشار ، ويحقق تدريبًا سريعًا لتسلسلات الفيديو الطويلة من خلال مجموعة متنوعة من تقنيات الحوسبة وتحسين الوقت المتوازية. وقالت الشركة إنها تحقق من فعالية تحجيم القانون في مجال توليد الفيديو وتخطط لتوسيع حجم البيانات ومقياس النموذج في المستقبل ، واستكشاف بنيات النماذج المبتكرة لضغط معلومات الفيديو بشكل أكثر كفاءة ودمج محتوى النص والفيديو بشكل أفضل.
الكود: https://github.com/thudm/cogvideo
النموذج: https://huggingface.co/thudm/cogvideox1.5-5b-sat
يوفر المصدر المفتوح لـ Cogvideox V1.5 قوة دفع جديدة لتطوير تقنية توليد الفيديو وتوفر للمطورين أدوات أكثر قوة. إن الابتكار التكنولوجي المستمر لـ Zhipu Huazhang وروح المصدر المفتوح يستحقون الاعتراف ، وتتطلع آفاق التطبيق المستقبلية لهذا النموذج. نتطلع إلى المزيد من التطبيقات المبتكرة بناءً على Cogvideox v1.5.