قامت شركة Zhipu AI بإصدار نموذج مفتوح المصدر لتوليد الفيديو CogVideoX، وهي خطوة تهدف إلى تسريع تطوير ونشر تطبيقات تكنولوجيا توليد الفيديو. بفضل أدائه الفعال، يتطلب إصدار CogVideoX-2B فقط بطاقة رسومات 4090 واحدة لإجراء الاستدلال، وبطاقة رسومات A6000 واحدة لإكمال الضبط الدقيق، مما يقلل بشكل كبير من عتبة الاستخدام ويمكّن من استخدامه على نطاق أوسع في الأغراض التجارية. الحقول. يعتمد هذا النموذج على تقنية التشفير التلقائي المتغير ثلاثي الأبعاد (3D VAE) المتقدمة بالإضافة إلى تقنية المحولات المتخصصة، والتي يمكنها إنشاء محتوى فيديو عالي الجودة، وحل مشكلة نقص الوصف النصي لبيانات الفيديو بشكل فعال، وفحص بيانات الفيديو بدقة. ، وضمان جودة بيانات التدريب النموذجي.
يستخدم نموذج CogVideoX تقنية التشفير التلقائي المتغير ثلاثي الأبعاد (3D VAE) لضغط الأبعاد المكانية والزمانية للفيديو في وقت واحد من خلال التفاف ثلاثي الأبعاد، مما يحقق معدلات ضغط أعلى وجودة إعادة بناء أفضل. يشتمل هيكل النموذج على جهاز تشفير ووحدة فك تشفير ومنظم مساحة كامن، مما يضمن السببية للمعلومات من خلال الإلتواء السببي الزمني. بالإضافة إلى ذلك، يتم استخدام تقنية Transformer المتخصصة لمعالجة بيانات الفيديو المشفرة ودمجها مع إدخال النص لإنشاء محتوى فيديو عالي الجودة. من أجل تدريب نموذج CogVideoX، طورت Zhipu AI مجموعة من الأساليب لفحص بيانات الفيديو عالية الجودة، والقضاء على مقاطع الفيديو التي تحتوي على الإفراط في التحرير والحركة غير المتماسكة وغيرها من المشكلات، مما يضمن جودة البيانات للتدريب النموذجي. وفي الوقت نفسه، يتم حل مشكلة عدم وجود وصف نصي لبيانات الفيديو من خلال خط أنابيب يولد ترجمات الفيديو من ترجمات الصور. فيما يتعلق بتقييم الأداء، يقدم CogVideoX أداءً جيدًا على مؤشرات متعددة، بما في ذلك الإجراءات البشرية والمشاهد والمستويات الديناميكية وما إلى ذلك، بالإضافة إلى أدوات التقييم التي تركز على الخصائص الديناميكية للفيديو. ستواصل شركة Zhipu AI استكشاف الابتكارات في مجال توليد الفيديو، بما في ذلك بنيات النماذج الجديدة، وضغط معلومات الفيديو، ودمج محتوى النص والفيديو.
من أجل تدريب نموذج CogVideoX، طورت Zhipu AI مجموعة من الأساليب لفحص بيانات الفيديو عالية الجودة، والقضاء على مقاطع الفيديو التي تحتوي على الإفراط في التحرير والحركة غير المتماسكة وغيرها من المشكلات، مما يضمن جودة البيانات للتدريب النموذجي. وفي الوقت نفسه، يتم حل مشكلة عدم وجود وصف نصي لبيانات الفيديو من خلال خط أنابيب يولد ترجمات الفيديو من ترجمات الصور.
فيما يتعلق بتقييم الأداء، يقدم CogVideoX أداءً جيدًا على مؤشرات متعددة، بما في ذلك الإجراءات البشرية والمشاهد والمستويات الديناميكية وما إلى ذلك، بالإضافة إلى أدوات التقييم التي تركز على الخصائص الديناميكية للفيديو. ستواصل شركة Zhipu AI استكشاف الابتكارات في مجال توليد الفيديو، بما في ذلك بنيات النماذج الجديدة، وضغط معلومات الفيديو، ودمج محتوى النص والفيديو.
مستودع الكود:
https://github.com/THUDM/CogVideo
تنزيل النموذج:
https://huggingface.co/THUDM/CogVideoX-2b
التقرير الفني:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
يوفر المصدر المفتوح لـ CogVideoX موارد قيمة لأبحاث تكنولوجيا إنشاء الفيديو، ويشير أيضًا إلى أن هذا المجال سوف يبشر بموجة جديدة من التطوير. سيؤدي أدائها الفعال وسهولة استخدامها إلى دفع المزيد من المطورين للمشاركة في ابتكار تكنولوجيا توليد الفيديو وتعزيز تطبيقها على نطاق واسع في مختلف الصناعات. ونحن نتطلع إلى المزيد من الإنجازات التي حققتها شركة Zhipu AI في هذا المجال في المستقبل!