الدعم الأولي لتورا (https://github.com/alibaba/Tora)
النموذج المحول (المضمن في عقدة التنزيل التلقائي):
https://huggingface.co/Kijai/CogVideoX-5b-Tora/tree/main
كانت هناك بعض التحديثات الأكبر هذا الأسبوع والتي من المرجح أن تؤثر على بعض مسارات العمل القديمة، وربما تحتاج عقدة أخذ العينات بشكل خاص إلى التحديث (إعادة الإنشاء) إذا حدث خطأ!
الميزات الجديدة:
الدعم الأولي لإصدار I2V الرسمي من CogVideoX: https://huggingface.co/THUDM/CogVideoX-5b-I2V
يحتاج أيضًا إلى ناشرين 0.30.3
تمت إضافة الدعم الأولي لـ CogVideoX-Fun: https://github.com/aigc-apps/CogVideoX-Fun
لاحظ أنه على الرغم من أن هذا النموذج يمكنه عمل image2vid، إلا أن هذا ليس نموذج I2V الرسمي حتى الآن، على الرغم من أنه سيتم إصداره قريبًا جدًا.
تمت إضافة دعم تجريبي لـ onediff، مما أدى إلى تقليل وقت أخذ العينات بنسبة 40% تقريبًا بالنسبة لي، ليصل إلى 4.23 ثانية/ثانية على 4090 مع 49 إطارًا. يتطلب ذلك تثبيت Linux وtorch 2.4.0 وonediff وnexfort:
pip install --pre onediff onediffx
pip install nexfort
سيستغرق التشغيل الأول حوالي 5 دقائق للتجميع.
النموذج 5b مدعوم الآن أيضًا للنص الأساسي text2vid: https://huggingface.co/THUDM/CogVideoX-5b
يتم أيضًا تنزيله تلقائيًا إلى ComfyUI/models/CogVideo/CogVideoX-5b
، ولا حاجة إلى برنامج تشفير النص لأننا نستخدم ComfyUI T5.
يتطلب الناشرون 0.30.1 (هذا محدد في ملف require.txt)
يستخدم نفس طراز T5 من SD3 وFlux، ويعمل fp8 بشكل جيد أيضًا. تعتمد متطلبات الذاكرة في الغالب على طول الفيديو. يبدو أن فك تشفير VAE هو الشيء الكبير الوحيد الذي يستهلك قدرًا كبيرًا من VRAM عندما يتم تفريغ كل شيء، ويبلغ ذروته عند حوالي 13-14 جيجابايت مؤقتًا في تلك المرحلة. قد يستغرق أخذ العينات نفسه 5-6 جيجابايت فقط.
تم اختراقه في img2img لمحاولة سير عمل vid2vid، ويعمل بشكل مثير للاهتمام مع بعض المدخلات، وهو تجريبي للغاية.
تمت إضافة التبليط الزمني أيضًا كوسيلة لإنشاء مقاطع فيديو لا نهاية لها:
https://github.com/kijai/ComfyUI-CogVideoXWrapper
الريبو الأصلي: https://github.com/THUDM/CogVideo
CogVideoX-Fun: https://github.com/aigc-apps/CogVideoX-Fun
شبكة التحكم: https://github.com/TheDenk/cogvideox-controlnet