أطلقت شركة Beijing Zhipu Huazhang Technology Co., Ltd. الإصدار 1.5 من CogVideoX، وكان الإصدار الأحدث من نموذج إنشاء الفيديو هذا مفتوح المصدر! منذ إصدارها في أوائل أغسطس، أصبحت سلسلة CogVideoX سريعًا خيارًا شائعًا في مجال إنشاء الفيديو بفضل تقنيتها الرائدة وميزاتها الملائمة للمطورين. علم محرر Downcodes أن CogVideoX v1.5 قد حقق تحسينات كبيرة في إمكانيات إنشاء الفيديو ونماذج تحويل الصورة إلى فيديو (I2V)، مما يوفر للمستخدمين تجربة إنشاء فيديو أفضل وأكثر ملاءمة.
يتضمن هذا المصدر المفتوح نموذجين: CogVideoX v1.5-5B وCogVideoX v1.5-5B-I2V. لقد تم إطلاقها في وقت واحد على منصة Qingying وتم دمجها مع نموذج التأثير الصوتي CogSound لتوفير خدمة أكثر قوة لتوليد فيديو الذكاء الاصطناعي، ودعم دقة الوضوح الأعلى، والنسب المتغيرة للتكيف مع المشاهد المختلفة، والإخراج متعدد القنوات، وإنشاء فيديو الذكاء الاصطناعي مع المؤثرات الصوتية. على المستوى الفني، يعمل الإصدار 1.5 من CogVideoX على تحسين جودة إنشاء الفيديو وتماسك المحتوى بشكل كبير من خلال تقنيات مثل إطار الفحص الآلي، ونموذج فهم الفيديو الشامل CogVLM2-caption، وجهاز التشفير التلقائي المتغير ثلاثي الأبعاد الفعال (3D VAE). بالإضافة إلى ذلك، تعمل بنية Transformer المطورة بشكل مستقل والتي تدمج الأبعاد الثلاثة للنص والزمان والمكان على تحسين أداء النموذج.
فيما يتعلق بالتدريب، يبني CogVideoX v1.5 إطارًا تدريبيًا فعالاً لنموذج النشر ويحقق تدريبًا سريعًا لتسلسلات الفيديو الطويلة من خلال مجموعة متنوعة من تقنيات الحوسبة المتوازية وتحسين الوقت. وقال Zhipu Huazhang إنهم تحققوا من فعالية قانون التوسع في مجال توليد الفيديو، ويخططون لتوسيع كمية البيانات وحجم النموذج في المستقبل، واستكشاف بنيات النماذج المبتكرة لضغط معلومات الفيديو بشكل أكثر كفاءة ودمج النص بشكل أفضل محتوى الفيديو.
الكود: https://github.com/thudm/cogvideo
الموديل: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
لا شك أن المصدر المفتوح لـ CogVideoX v1.5 سيعزز التطور التكنولوجي وابتكار التطبيقات في مجال توليد الفيديو، مما يوفر للمطورين أدوات وموارد أكثر قوة. نتطلع إلى المزيد من المفاجآت من سلسلة CogVideoX في المستقبل!