منذ ولادة سورا، التي بشرت بعصر جديد من فيديو الذكاء الاصطناعي، انضم اللاعبون الرئيسيون في الداخل والخارج على التوالي إلى مسابقة فيديو الذكاء الاصطناعي. ولكن مع دخولنا هذا العصر الجديد من مقاطع الفيديو الأكثر تفاعلية وغامرة، كيف يمكننا معالجة تحديات التكلفة والجودة والأداء؟
في 15 أكتوبر، أصدرت شركة Volcano Engine وIntel بشكل مشترك نموذجًا كبيرًا لحل المعالجة المسبقة للفيديو في مؤتمر Video Cloud Technology Conference. علم مراسل "ديلي إيكونوميك نيوز" في المؤتمر الصحفي أنه تم تطبيق هذا الحل التقني على نموذج إنشاء فيديو كيس الفول.
في المؤتمر الصحفي، قدم لي هانغ، رئيس أبحاث Bytedance، أن نموذج توليد الفيديو Doubao PixelDance اعتمد حل المعالجة المسبقة للفيديو النموذجي الكبير لمحرك Volcano أثناء عملية التدريب، مع الاستفادة الكاملة من عدد كبير من موارد المد والجزر وتوفير دعم قوي للتدريب النموذجي.
بالإضافة إلى ذلك، كشف وانغ يو، رئيس هندسة الفيديو في مجموعة Douyin، عن أحدث التقدم في شريحة ترميز الفيديو التي طورتها Byte ذاتيًا: تم التحقق منها من خلال الممارسة الداخلية لمجموعة Douyin، وتوفر هذه الشريحة أكثر من 95٪ من التكلفة تحت نفس ضغط الفيديو كفاءة.
"أولاً وقبل كل شيء، أدت مجموعة بيانات التدريب على الفيديو واسعة النطاق إلى زيادة في تكاليف الحوسبة والمعالجة." وأشار وانغ يو إلى أن الشركات المصنعة للنماذج الكبيرة تواجه العديد من التحديات في عملية المعالجة المسبقة "ثانيًا، الفيديو بيانات العينة غير متساوية، ومن ثم هناك العديد من روابط المعالجة، والمشروع معقد، وأخيرًا يواجه جدولة ونشر موارد حوسبة متعددة غير متجانسة مثل وحدة معالجة الرسومات ووحدة المعالجة المركزية وARM.
إطار معالجة الوسائط المتعددة المطور ذاتيًا
في جولة Volcano Engine AI Innovation Tour في 24 سبتمبر، تم إطلاق نموذجين كبيرين لتوليد الفيديو من نوع Beanbag، PixelDance وSeaweed، معًا، مما جذب انتباه الأشخاص داخل الصناعة وخارجها. في الواقع، لا تتوقف جهود ByteDance في نماذج إنشاء الفيديو عند هذا الحد.
في 15 أكتوبر، أصدرت Volcano Engine حلًا كبيرًا للمعالجة المسبقة للفيديو للتدريب على النماذج الكبيرة، وهو مخصص لحل التحديات التقنية من حيث التكلفة والجودة والأداء لتدريب نماذج الفيديو الكبيرة.
وفقًا للتقارير، تعد المعالجة المسبقة لمقاطع الفيديو التدريبية شرطًا أساسيًا مهمًا لضمان تأثير التدريب على النماذج الكبيرة. يمكن لعملية المعالجة المسبقة توحيد تنسيق بيانات الفيديو، وتحسين جودة البيانات، وتوحيد البيانات، وتقليل كمية البيانات، ومعالجة معلومات التعليقات التوضيحية، حتى يتمكن النموذج من تعلم الميزات والمعرفة في الفيديو بشكل أكثر كفاءة وتحسين التدريب التأثير والكفاءة.
في تدريب نماذج توليد الفيديو، تعد تكلفة الطاقة الحاسوبية بلا شك التحدي الأول.
قال مهندس خوارزمية لنموذج توليد الفيديو المحلي في مقابلة مع مراسل "ديلي إيكونوميك نيوز" إنه مع البيانات عالية الجودة، سيكون تدريب نماذج الفيديو أكثر صعوبة من نماذج اللغات الكبيرة وتتطلب المزيد من القوة الحاسوبية "في الوقت الحاضر ، نماذج الفيديو مفتوحة المصدر المعروفة ليست كبيرة بشكل خاص، ويرجع ذلك أساسًا إلى أن العديد من نماذج الفيديو حاليًا في مرحلة لا يعرفون فيها كيفية استخدام البيانات، ولا يوجد الكثير من البيانات عالية الجودة (للتدريب)."
يُظهر البحث الذي أجراه عالم الكمبيوتر ماتياس بلابيرت أيضًا أن تدريب Sora يتطلب قوة حاسوبية هائلة. في عملية التدريب، يستغرق التدريب على 4200 إلى 10500 Nvidia H100 حوالي شهر واحد سوف تزيد التكلفة بسرعة بعد الجلسة التدريبية.
من أجل حل مشكلة خفض التكلفة، يعتمد Volcano Engine على وحدة المعالجة المركزية Intel وغيرها من الموارد للاعتماد على حل المعالجة المسبقة للفيديو النموذجي الكبير الخاص به على إطار معالجة الوسائط المتعددة المطور ذاتيًا. وقال وانغ يو إنه تم تحسين الحل أيضًا من حيث الخوارزميات والهندسة، ويمكنه إجراء معالجة مسبقة عالية الجودة لبيانات الفيديو الضخمة، وتحقيق تعاون فعال لروابط المعالجة في وقت قصير، وتحسين كفاءة تدريب النماذج.
وفيما يتعلق بتطبيق هذا الحل، كشف Li Hang في المؤتمر الصحفي أن نموذج توليد فيديو Beanbag PixelDance قد اعتمد هذا الحل أثناء عملية التدريب. وفي الوقت نفسه، يوفر الحل عند الطلب الذي يقدمه فريق Volcano Engine Video Cloud أيضًا خدمة متكاملة لدورة حياة مقاطع الفيديو التي تنتجها PixelDance بالكامل، بدءًا من التحرير والتحميل وتحويل الشفرة والتوزيع والتشغيل، مما يضمن التطبيق التجاري للنموذج.
بالإضافة إلى ذلك، في هذا المؤتمر، أصدر Volcano Engine أيضًا حلاً للبث المباشر المتزامن عبر اللغات، وحلًا لفهم وتوليد الفيديو متعدد الوسائط، وحل تفاعل في الوقت الحقيقي للذكاء الاصطناعي للمحادثة، وحل AIG3D وإعادة بناء المشهد الكبير نهاية إنتاج الفيديو، من النهاية التفاعلية إلى نهاية المستهلك، يدمج الرابط بأكمله قدرات الذكاء الاصطناعي.
إلى أين يتجه فيديو الذكاء الاصطناعي؟
يعمل الذكاء الاصطناعي على إعادة تشكيل الطريقة التي ينتج بها الناس المعلومات وينشرونها ويتلقونها في جميع الجوانب. ومن بينها، جلبت تقنيات الفيديو الجديدة الناشئة الناس من عالم البيانات السلس عالي الوضوح إلى عالم الذكاء الاصطناعي الذي يتمتع بتجارب أكثر ذكاءً وتفاعلية.
في يوليو من هذا العام، أطلقت SenseTime Vimi، وهو أول نموذج كبير لتوليد فيديو ذو شخصيات يمكن التحكم فيها لمستخدمي C-end، وفي أغسطس، أصدرت MiniMax نموذج إنشاء الفيديو video-1 في سبتمبر، وأكملت Keling AI نسختها التاسعة وأصدرت "KeLing 1.5". "نموذج"، أطلقت Alibaba Cloud نموذجًا جديدًا لتوليد الفيديو في مؤتمر Yunqi، وأصدرت Byte أيضًا نموذجين لتوليد الفيديو. يستغرق ولادة منتجات فيديو الذكاء الاصطناعي وتكرارها شهورًا تقريبًا.
وفيما يتعلق بـ "انفجار" منتجات فيديو الذكاء الاصطناعي، قال وانغ بنغ، الباحث المشارك في أكاديمية بكين للعلوم الاجتماعية، في مقابلة مع مراسل "ديلي إيكونوميك نيوز" إن منتجات فيديو الذكاء الاصطناعي المحلية تمر بمرحلة من التطور السريع و التكرار المستمر، ويرجع ذلك أساسًا إلى الطلب القوي في السوق ومجموعة واسعة من سيناريوهات التطبيق ونماذج التسويق المتنوعة.
في الوقت الحاضر، يتم تنفيذ منتجات فيديو الذكاء الاصطناعي الموجودة في السوق في الغالب في مجالات الأفلام والتلفزيون وتسويق التجارة الإلكترونية وغيرها من المجالات. على سبيل المثال، في يوليو من هذا العام، تعاونت Jimeng AI وBona Pictures لإطلاق أول إنتاج AIGC مستمر في البلاد. سلسلة قصيرة من الخيال العلمي الروائي "Sanxingdui: Future Enlightenment" "Record"؛ في سبتمبر من هذا العام، تعاونت Kuaishou مع تسعة مخرجين مشهورين بما في ذلك Jia Zhangke وLi Shaohong لإطلاق مشروع الإنتاج المشترك للمخرج "Keling AI".
وأشار بان هيلين، عضو لجنة خبراء اقتصاد المعلومات والاتصالات بوزارة الصناعة وتكنولوجيا المعلومات، لمراسل "ديلي إيكونوميك نيوز" إلى أن بعض منتجات الفيديو المعتمدة على الذكاء الاصطناعي هي الآن في مرحلة التقديم ويصعب طرحها. في السوق بسبب التكنولوجيا أو الامتثال "في الوقت الحالي، يبدو أن المصدر المفتوح (منتجات فيديو الذكاء الاصطناعي) أكثر شيوعًا من المنتجات مغلقة المصدر لأن تكلفة إنشاء فيديو الذكاء الاصطناعي مرتفعة، وغالبًا ما يفتقر منتجو الفيديو إلى الأموال، لذا فإن استخدام المصادر المفتوحة. يمكن لخوارزميات الذكاء الاصطناعي المصدر التي تم تنزيلها على الجهاز إنتاج مقاطع فيديو وإنشاءها بشكل أفضل."
من وجهة نظره، تواجه منتجات فيديو الذكاء الاصطناعي في هذه المرحلة عقبتين أساسيتين: قوة الحوسبة ومخاطر الامتثال. "تتطلب الخوارزميات وقوة الحوسبة والبيانات من المؤسسات استثمار المزيد من الموارد والوقت؛ وتكمن صعوبة أخرى في مخاطر الامتثال. في الوقت الحاضر، يتم إيلاء المزيد والمزيد من الاهتمام للخصوصية. يعد الامتثال موضوعًا لا مفر منه، وقد تكون مقاطع فيديو الذكاء الاصطناعي في بعض الأحيان غزوًا للخصوصية الشخصية وأوضح الخصوصية.
بالإضافة إلى ذلك، أعرب تشين تشين، الشريك البحثي في Analysys، عن مخاوفه بشأن قدرة نماذج توليد الفيديو الكبيرة على تحقيق الدخل على المدى القصير في مقابلة مع مراسل من Daily Economic News "بسبب ارتفاع تكاليف التدريب على النماذج والاستدلال للذكاء الاصطناعي الكبير". نماذج، إلى جانب الجانب C، فإن طلب المستخدمين على أدوات الذكاء الاصطناعي متناثر نسبيًا واستعدادهم للدفع غير كافٍ، وسيظل تسويق نماذج الفيديو الكبيرة في سوق الطرف C يواجه فترة زراعة طويلة.
لقد وصل عصر فيديو الذكاء الاصطناعي، ولكن كيفية خفض التكاليف وزيادة الكفاءة وكسب المزيد من الأسواق ستصبح أيضًا اقتراحًا مهمًا تواجهه شركات الإنترنت الكبرى وشركات التكنولوجيا.