ByteDance وKuaishou، يواجه عملاقا الفيديو القصير مواجهة مباشرة في مجال الذكاء الاصطناعي.
في 8 نوفمبر، أعلنت Dream AI، وهي منصة محتوى للذكاء الاصطناعي مملوكة لشركة ByteDance، أن Seaweed، وهو نموذج لتوليد الفيديو طورته ByteDance، مفتوح رسميًا لمستخدمي النظام الأساسي. وفقًا لـ ByteDance، فإن نموذج إنشاء فيديو Beanbag Seaweed المفتوح للاستخدام هذه المرة هو الإصدار القياسي من هذا النموذج، ويستغرق إنشاء فيديو AI عالي الجودة مدته 5 ثوانٍ 60 ثانية فقط، وهو ما يسبقه بـ 3 إلى 5 دقائق. جميع معايير الصناعة المحلية تتطلب وقت الجيل.
أجرى مراسلو "ديلي إيكونوميك نيوز" اختبارات فعلية على الإصدارين الأول والأحدث من Jimeng وKeling ووجدوا أنه بعد التكرار، تم تحسين تأثيرات توليد الفيديو للمنتجين في العديد من الجوانب وبدرجات متفاوتة أصبحت تفاصيل التخطيط والصورة أكثر دقة، كما أن تعديل تأثير المحتوى الذي تم إنشاؤه أكثر مرونة وملاءمة؛ ويتمتع Jimeng بمزايا في وقت الإنشاء ونمط الفيديو.
الصين البصرية
وقال أحد فنيي النماذج الكبيرة للصحفيين إنه من الصعب على نماذج توليد الفيديو تحقيق "أنماط" مختلفة لمحتوى الإنتاج "بالإضافة إلى التكنولوجيا، يعتمد الأمر أيضًا بشكل أساسي على ثراء مصادر البيانات".
أكمل التكرارات المتعددة في فترة زمنية قصيرة
مع افتتاح نموذج إنشاء الفيديو الذي طورته ByteDance ذاتيًا Seaweed، الزوج الأكثر إثارة للاهتمام في مسابقة نماذج توليد الفيديو المحلية - تنافس Ji Meng و Ke Ling رسميًا أخيرًا.
كلاهما يحمل "خطة صنع حلم الذكاء الاصطناعي" لفهم العالم المادي وتضخيم الخيال قدر الإمكان مع استخلاص "الواقع". لكن بالنسبة لأنفسهم، يتحمل Ji Meng وKe Ling أيضًا مسؤوليات آفاق تطوير ByteDance وKuaishou.
في الواقع، أكمل كل من Jimeng وKeling العديد من التكرارات في أقل من عام. بدأت Jimeng الاختبار الداخلي لوظيفة إنشاء الفيديو في نهاية شهر مارس، وبعد نصف عام، أصدرت ByteDance نموذجين لتوليد الفيديو من عائلة نماذج Doubao، وهما Seaweed وPixeldance، ودعت إلى إجراء اختبارات على نطاق صغير من خلال Jimeng AI وVolcano Engine Now Seaweed مفتوحة لمستخدمي المنصة بشكل رسمي.
صرح بان هيلين، عضو لجنة خبراء اقتصاد المعلومات والاتصالات بوزارة الصناعة وتكنولوجيا المعلومات، لمراسل "ديلي إيكونوميك نيوز" أن سرعة توليد النموذج الجديد الذي يستخدمه جيمنغ قد تم تحسينها، مما يمنح المستخدمين تجربة أفضل تجربة الجيل "تعمل شركة Jimeng AI حاليًا في مجال التوليد المحلي. ولا تزال رائدة نسبيًا."
أصبح Keling رائجًا بعد "ميلاده" في يونيو، وقد شهد منذ إصداره أكثر من عشرة تحديثات، بما في ذلك إصدار وظيفة فيديو Tusheng وإطلاق الطراز 1.5. اعتبارًا من الآن، لدى Keling أكثر من 3.6 مليون مستخدم، وأنتج إجمالي 37 مليون مقطع فيديو، وسيطلق رسميًا تطبيقًا مستقلاً (برنامج تطبيقي) في المستقبل القريب.
اختار مراسل "ديلي إيكونوميك نيوز" 5 كلمات سريعة للفيديو تم الإعلان عنها رسميًا بواسطة OpenAI (سيدة في شوارع طوكيو، رائد فضاء، ساحل من منظور الطائرة بدون طيار، وحش صغير متحرك ثلاثي الأبعاد، شاب يقرأ في السحابة) واختبرها بشكل منفصل الإصدارات الأولى والأحدث من Menghe Keling، تقارن بشكل عمودي تأثيرات الفيديو لنموذجي توليد الفيديو.
بعد مقارنة تأثيرات الفيديو التي أنتجتها النسخة الأصلية لـ Jimeng والإصدار الأخير، وجد المراسل أن هناك جزأين من تحديثات Jimeng أكثر وضوحًا: الأول هو أنه في أداء "الأشخاص والأشياء" الديناميكية، يتم التقاط وتماسك تم تحسين الحركات بشكل ملحوظ؛ والآخر هو أن العرض المتباين لأنماط الصور قد حقق أيضًا تقدمًا كبيرًا.
إذا أخذنا "سيدة في شوارع طوكيو" كمثال، فإن حركات الشخصيات التي أنشأها الجيل الأول من Yume كانت قاسية، خاصة في التقاط حركات الساق والقدم، وكان التأثير العام غير واضح ومشوه. تتميز النسخة الجديدة المتكررة من Ji Meng بحركات شخصية طبيعية وسلسة، كما أن المعالجة التفصيلية لديناميكيات القدم أكثر وضوحًا وأكثر انسجامًا مع منطق العالم الحقيقي.
هناك فرق واضح بين الحلم والروح
بعد تكرار النموذجين، أصبحت التأثيرات الناتجة أكثر استقرارًا، وجودة الصورة أفضل، والسلاسة ومعالجة التفاصيل أكثر قدرة على تحمل التدقيق. ومع ذلك، لا يزال لديهم اختلافات واضحة في الفهم الدلالي، والتقاط الكلمات الرئيسية وتضخيمها، والتوازن بين الخيال الإبداعي والأهمية الإبداعية.
مقارنة أفقية، مقارنة أحدث إصدار من Jimeng ونموذج 1.5 Keling، لمقارنة عرض 5 كلمات موجهة لفيديو Sora. إن فهم الدلالات والتقاط الكلمات الرئيسية يجعل عرض الفيديو الخاص بـ Jimeng و Keling مختلفًا.
في فيديو "الساحل من منظور الطائرة بدون طيار"، قام Ji Meng بتشويش "الجزيرة ذات المنارة" نسبيًا في الكلمة السريعة، وسواء كان Ke Ling أو Sora، كان تركيز هذا المشهد هو "Island". في وصف "الطريق الساحلي السريع"، لا يتوافق إعداد الحلم مع منطق العالم الحقيقي.
في تأثير فيديو "رائد الفضاء"، لم يصف جي منغ "المغامرة" في الوصف. بعد التجديد، تجاهل رائد الفضاء الذي يحمل القهوة ويركب دراجة نارية أيضًا إعداد "المغامرة". يؤكد Ke Ling على "المغامرة" من خلال تعبيرات الشخصيات وحركات الكاميرا. ومع ذلك، تجاهل كل من Ji Meng وKe Ling نسبيًا إعداد "المقطورة الترويجية للفيلم". في المقابل، يتمتع فيديو "Spaceman" الخاص بسورا بإحساس سينمائي أكثر.
في جيل فيديو "الوحش الصغير المتحرك ثلاثي الأبعاد"، يكون إعداد الوحش الصغير لـ Ji Meng هو نفس شخصية "Sally" في فيلم الرسوم المتحركة "Monsters, Inc." كما أن وصف الوحش الصغير بالكلمات السريعة، أي عرض الحلم، غير دقيق نسبيًا، مثل تنفيذ الإعداد "قصير الشعر". بالإضافة إلى ذلك، فيما يتعلق بعرض الأسلوب الفني، تؤكد الكلمات السريعة على "الإضاءة والملمس"، أي أن تنفيذ الأحلام أضعف من تنفيذ Ke Ling.
في فيديو "سيدة في شوارع طوكيو"، كان أداء جي مينج في عرض التفاعلات المعقدة متعددة الموضوعات ضعيفًا مقارنة بأداء كي لينج. كل من "السيدة" التي هي موضوع الصورة ووصف المساحة دقيقان نسبيًا، لكن المشاة في الصورة غير واضحين بشكل عام، والمشاة في الصورة المقربة مشوهون.
ومع ذلك، كشفت Jimeng AI رسميًا أن الإصدارات الاحترافية من نماذج إنشاء الفيديو Seaweed وPixeldance ستكون متاحة للاستخدام في المستقبل القريب. سيعمل نموذج الإصدار الاحترافي على تحسين التفاعل متعدد الأهداف وتماسك إجراءات اللقطات المتعددة، مع التغلب أيضًا على مشكلات مثل اتساق تبديل اللقطات المتعددة.
فيما يتعلق بالوظيفة والخبرة، بعد عدة جولات من التكرارات، أجرى Keling تعديلات على معلمات "الخيال الإبداعي والأهمية الإبداعية" عند إنشاء مقاطع الفيديو، لذلك يمكن إجراء تعديلات التوازن. يمكن لـ Ke Ling أيضًا تعيين المحتوى الذي لا ترغب في تقديمه، مثل التمويه والكولاج والتحويل والرسوم المتحركة وما إلى ذلك. عملية التوليد أكثر مرونة ويمكن تعديل التأثير.
بعد الاختبار، أصبح وقت إنشاء فيديو الأحلام أقصر. لا يتجاوز وقت إنشاء الفيديو الخاص بكلمات سورا الخمس نصف دقيقة. ومع ذلك، يستغرق إنشاء فيديو عالي الجودة مدته 10 ثوانٍ باستخدام الطراز 1.5 أكثر من 10 دقائق.
تجدر الإشارة إلى أن مقاطع الفيديو المذكورة أعلاه التي تم إنشاؤها بواسطة Jimeng وKeling تم اختبارها وإنشاؤها بواسطة المراسلين، حيث ستؤدي الإصدارات المختلفة وتفاصيل الوصف إلى حدوث اختلافات في تأثيرات إنشاء الفيديو.
معركة في مجال توليد الفيديو بالذكاء الاصطناعي
بالنسبة لشركتي الفيديو القصير العملاقتين ByteDance وKuaishou، فإن خصومهما في مجال إنشاء الفيديو باستخدام الذكاء الاصطناعي هم أكثر بكثير من مجرد بعضهم البعض.
على سبيل المثال، في الثامن من تشرين الثاني (نوفمبر)، قامت شركة Zhipu، إحدى "التنينات الستة الصغيرة للذكاء الاصطناعي"، بتحديث أداة إنشاء الفيديو الخاصة بها Qingying. يدعم Qingying الذي تمت ترقيته إنشاء الفيديو من الصور بأي نسبة، ولديه إمكانات إنشاء قنوات متعددة ويمكن لنفس الأمر أو الصورة إنشاء 4 مقاطع فيديو في وقت واحد. بالإضافة إلى ذلك، يمكن لـ Qingying إنشاء مؤثرات صوتية تتوافق مع الصورة. سيتم إطلاق وظيفة المؤثرات الصوتية هذه في الإصدار التجريبي العام هذا الشهر.
في وقت سابق، في 31 أغسطس، أصدرت MiniMax أول تقنية نموذجية لتوليد فيديو عالي الوضوح مدعومة بالذكاء الاصطناعي abab-video-1، والتي تلقت تقارير متكررة في الشهر الأول من إطلاقها. وفقًا للحساب العام الرسمي لشركة MiniMax، في الشهر الأول بعد إطلاق نموذج الفيديو على Conch AI، زاد عدد الزيارات إلى إصدار الويب الخاص بـ Conch AI بأكثر من 800%، ويغطي المستخدمون أكثر من 180 دولة ومنطقة حول العالم احتل المنتج المرتبة الأولى في قائمة منتجات الذكاء الاصطناعي (الويب) في شهر سبتمبر، ويحتل المرتبة الأولى في قائمة معدلات النمو العالمية وقائمة معدلات النمو المحلية.
وأشار وانغ بنغ، الباحث المشارك في معهد الإدارة التابع لأكاديمية بكين للعلوم الاجتماعية، لمراسل "ديلي إيكونوميك نيوز" إلى أن منتجات الفيديو العاملة بالذكاء الاصطناعي في الداخل والخارج تمر حاليًا بمرحلة التطور السريع، والتكنولوجيا الأجنبية ينشر عمالقة مثل Meta وGoogle بنشاط في مجال فيديو الذكاء الاصطناعي محليًا، ويتم أيضًا ترقية منتجات Kuaishou Keling وJimeng AI وغيرها بشكل متكرر لتحسين تجربة المستخدم وقدرات التسويق.
فيما يتعلق بإمكانيات التسويق، ذكر تقرير بحثي أصدرته شركة Soochow Securities في أغسطس من هذا العام أنه في ظل الافتراض المحايد لمعدل انتشار الذكاء الاصطناعي بنسبة 15%، فإن المساحة المحتملة لصناعة فيديو الذكاء الاصطناعي في الصين تبلغ 317.8 مليار يوان بموجب النموذج؛ سيتم تخفيض تكاليف إنتاج الأفلام والدراما الطويلة والرسوم المتحركة والمسرحيات القصيرة بنسبة تزيد عن 95% مقارنة بالنموذج التقليدي.
ويمكن أيضًا إلقاء نظرة على حجم السوق المحتمل الضخم و"القوة العظمى" لخفض التكاليف وزيادة الكفاءة من بيانات الاستخدام الخاصة بشركة Keling.
في "مؤتمر الكمبيوتر الصيني 2024" الذي عقد في أكتوبر، كشف Zhang Di، نائب رئيس Kuaishou ورئيس فريق النماذج الكبيرة، أنه منذ إصداره في يونيو من هذا العام، يضم Kuaishou Keling AI أكثر من 3.6 مليون مستخدم وحقق نجاحًا كبيرًا. إجمالي 37 مليون مقطع فيديو وأكثر من 100 مليون صورة.
قال بان هيلين في مقابلة مع أحد مراسلي "ديلي إيكونوميك نيوز" إن شركة Keling مدعومة من قبل Kuaishou وتتمتع بدعم حركة المرور، لذا فإن عملية التسويق سريعة جدًا "لا تزال منتجات فيديو الذكاء الاصطناعي بحاجة إلى دعم منصة الإنترنت. فقط مع حركة المرور يمكن أن يكون لديهم إمكانات تجارية." ".
وبالمثل، وضعت ByteDance أيضًا تسويق نماذج الفيديو في مقدمة قائمة مهامها. عندما تم إطلاق نموذجين لتوليد الفيديو في سبتمبر من هذا العام، صرح تان داي، رئيس Volcano Engine، علنًا أن نموذج توليد فيديو كيس القماش الجديد "كان يفكر في التسويق التجاري منذ إطلاقه"، وتشمل مجالات الاستخدام تسويق التجارة الإلكترونية والرسوم المتحركة والتعليم والسياحة الثقافية الحضرية والمخطوطات الصغيرة.
"سيُظهر فيديو الذكاء الاصطناعي إمكانات تسويقية مختلفة على الجانب B والجانب C." يعتقد Wang Peng أنه بالنسبة للجانب B، يمكن لفيديو الذكاء الاصطناعي أن يزود المؤسسات بحلول أكثر كفاءة ومنخفضة التكلفة لإنتاج وتوزيع الفيديو؛ من ناحية أخرى، يمكن أن يلبي فيديو الذكاء الاصطناعي احتياجات المستخدمين من محتوى فيديو مخصص وعالي الجودة، ويمكن أيضًا دمجه مع التجارة الإلكترونية والإعلان وغيرها من الصناعات لتحقيق تسويق وتحقيق دخل أكثر دقة.