علم محرر Downcodes أن شركة Zhipu AI قد فتحت مؤخرًا مصدرًا لنموذج توليد الفيديو الجديد CogVideoX-5B. حقق هذا النموذج تحسينات كبيرة في جودة إنشاء الفيديو والمؤثرات البصرية وأداء الاستدلال، وهو تحسن كبير مقارنة بمنتج الجيل السابق CogVideoX-2B. حتى بطاقات GTX 1080Ti المبكرة يمكنها تشغيل نماذج الجيل السابق، بينما يمكن للبطاقات الرئيسية مثل RTX 3060 التعامل مع CogVideoX-5B بسهولة. ويمثل هذا انخفاضًا إضافيًا في عتبة تكنولوجيا توليد الفيديو عالية الجودة، مما يوفر لمزيد من المطورين والمستخدمين حلولًا مريحة وفعالة لتوليد الفيديو.
في الآونة الأخيرة، قامت شركة Zhipu AI بفتح مصدر جديد لنموذج إنشاء الفيديو CogVideoX-5B، فهو لا يتفوق على منتج الجيل السابق CogVideoX-2B فقط من حيث جودة إنشاء الفيديو والتأثيرات المرئية، ولكن تم تحسين أدائه المنطقي بشكل كبير، مما جعله مبكرًا. يمكن لبطاقات الرسومات GTX1080Ti تشغيل طراز الجيل السابق، ويمكن لبطاقات الرسومات على مستوى سطح المكتب، مثل RTX3060، التعامل بسهولة مع هذا الطراز الجديد.
مقارنة مفصلة بين المعلمات CogVideoX-5B وCogVideoX-2B:
تم تصميم نموذج DiT (محول الانتشار) واسع النطاق هذا لأداء مهام إنشاء تحويل النص إلى فيديو. تشتمل التقنية التي تقف وراءها على جهاز التشفير التلقائي السببي ثلاثي الأبعاد (3D السببي VAE)، والذي يحقق إعادة بناء الفيديو بكفاءة عن طريق ضغط بيانات الفيديو في الفضاء الكامن وفك تشفيرها في البعد الزمني.
بالإضافة إلى ذلك، يجمع استخدام Expert Transformer بين تضمين النص ودمج الفيديو، ويستخدم 3D-RoPE كترميز للموضع، ويقوم بتطبيع بيانات الطريقتين من خلال طبقة التكيف الخبيرة، ويستخدم الاهتمام الكامل ثلاثي الأبعاد. تم تصميم آلية القوة بشكل مشترك في الفضاء والوقت.
الكود: https://top.aibase.com/tool/cogvideox
تنزيل النموذج: https://huggingface.co/THUDM/CogVideoX-5b
رابط الورقة: https://arxiv.org/pdf/2408.06072
لقد حقق المصدر المفتوح لـ CogVideoX-5B اختراقات جديدة في مجال توليد الفيديو، وخفض العتبة التقنية، وقدم أساسًا متينًا للبحث والتطبيقات المستقبلية. يعتقد محرر Downcodes أن هذه التقنية ستعزز التطوير الإضافي لتقنية توليد الفيديو وستجلب تطبيقات مبتكرة إلى المزيد من المجالات.