النماذج الكبيرة هي مجال حيث السرعة هي المفتاح، ولكن في بعض الأحيان يمكن أن يكون البطء نوعًا آخر من السرعة.
في 31 أغسطس، أصدرت شركة MiniMax Shanghai Xiyu Technology Co., Ltd. المحلية للذكاء الاصطناعي (المشار إليها فيما يلي باسم "MiniMax") نموذج الفيديو abab-video-1 في مؤتمر المطورين الأول "MiniMaxLink Partner Day". الكلمة السريعة يمكنها إنشاء مقاطع فيديو تصل مدتها إلى 6 ثوانٍ، مع التركيز على الدقة العالية ومعدل الإطارات المرتفع.
بمعنى آخر، نموذج الفيديو الذي ذكره MiniMax يشبه نموذج فيديو Vincent الخاص بسورا OpenAI. بصفته المؤسس والرئيس التنفيذي لشركة MiniMax، يعتقد Yan Junjie أن "السرعة" هي هدف البحث والتطوير التكنولوجي الأساسي للنموذج الكبير الأساسي للشركة، ومع ذلك، فإن نموذج الفيديو متأخر بعدة أشهر عن Sora.
"لماذا تأخر إطلاقنا لمدة شهر أو شهرين؟ جوهر الأمر هو أننا نحل مشكلة تقنية أكثر صعوبة، وهي كيفية تدريب الأشياء محليًا باستخدام قوة حاسوبية عالية نسبيًا." التدريب عند تطوير قدرات إنشاء الفيديو، تحتاج أولاً إلى تحويل مقاطع الفيديو إلى رموز مميزة، وستكون هذه الرموز طويلة جدًا، وسيكون التعقيد أعلى "في الواقع، ما فعلناه بشكل أساسي في النصف الأول من العام هو تقليل التعقيد: اجعل نسبة الضغط أعلى، بحيث يكون التأخير شهرًا أو شهرين.
قالت MiniMax أنه بناءً على التقييم الداخلي ونتائج التشغيل، فإن نموذج الفيديو الخاص بالشركة يعمل بشكل أفضل من أداء Runway. حاليًا، أطلقت Keling نموذجًا تجاريًا لخطة اشتراك العضوية. إذًا، ما هو نموذج العمل لنموذج فيديو MiniMax؟ وفي هذا الصدد، قال يان جونجي: "استراتيجيتنا هي الانتظار لمدة أسبوع أو أسبوعين آخرين. بعد ظهور أشياء جديدة ونحن في حالة مرضية أكثر، قد نفكر في (اتخاذ) بعض (الإجراءات) التجارية".
وذكر أيضًا أنه نظرًا للتقدم السريع للنماذج، على الرغم من أن مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي لا يمكن أن تحل محل محركات العرض التقليدية، إلا أنها "توفر على الأقل إمكانية" لإنشاء ألعاب 3A مثل "Black Myth: Wukong".
فكر في التسويق فقط عندما تشعر بالرضا أكثر
على الرغم من عدم ذكر مسار التسويق لنموذج الفيديو، قال يان جونجي: "ينقسم التسويق التجاري للشركة بأكملها بشكل أساسي إلى شكلين. الشكل الأول هو منصتنا المفتوحة، والتي تضم الآن أكثر من 2000 عميل، بما في ذلك العديد من العملاء المشهورين تتمتع شركات الإنترنت، بما في ذلك الشركات التقليدية، بالفعل بالقدرة على استخدام الصوت والرؤية للمستخدمين. ولا تستطيع جميع الشركات القيام بذلك بنفسها مثل Kuaishou. نحن شريك جيد، وهذا هو الجزء الثاني.
"والثاني هو أن منتجاتنا لديها أيضًا آليات إعلانية، ويمكن تحقيق الدخل من الإعلانات تجاريًا." ويعتقد يان جونجي أنه في المرحلة الحالية، "الشيء الأكثر أهمية ليس التسويق، ولكن إتاحة التكنولوجيا على نطاق واسع حقًا." التوفر."
أصبحت مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي (نماذج الفيديو) باستخدام تقنية معقدة نسبيًا عملية شائعة لمصنعي النماذج الكبيرة لإظهار قوتهم أو "استعراض عضلاتهم" هذا العام، وقد بدأت OpenAI ذلك. في فبراير من هذا العام، أصدرت OpenAI نموذج فيديو ضخم Sora، لكن لم يتم إصداره بعد للاختبار العام. في أبريل، أصدرت شركة Shengshu Technology نموذج الفيديو الكبير Vidu؛ وفي يونيو، أصدرت Kuaishou نموذج الفيديو الكبير Keling؛ وفي يوليو، تم إطلاق نموذج الفيديو الذي تم إنشاؤه بواسطة Zhipu AI رسميًا...
لماذا يريد MiniMax إنشاء نموذج فيديو؟ قال يان جونجي إن الجوهر هو أن معظم المحتوى الذي يستهلكه البشر كل يوم عبارة عن صور ونصوص ومقاطع فيديو، ولا يمثل النص نسبة عالية "من أجل الحصول على تغطية مستخدم عالية جدًا وعمق أعلى في الاستخدام شركة مصنعة للنماذج الكبيرة، الطريقة الوحيدة هي أن تكون قادرًا على إخراج محتوى متعدد الوسائط بدلاً من مجرد إخراج محتوى قائم على النص فقط، وهذا حكم أساسي للغاية.
وأضاف أيضًا: "لقد صنعنا النص أولاً، ثم صنعنا الأصوات، وقمنا بصنع الصور منذ وقت طويل. والآن بعد أن أصبحت التكنولوجيا أقوى، (يمكننا) أيضًا إنشاء مقاطع فيديو. هذا الطريق ثابت، ويجب أن يكون متعددًا -modal. "في الماضي، صنع MiniMax نماذج لغوية كبيرة، ثم نماذج صوتية، ثم نماذج صورية"، ولكن الآن أصبحت التكنولوجيا أقوى، ويجب أيضًا أن يكون هذا المسار متسقًا. الطريقة".
وفقًا لمهندس خوارزمية الذكاء الاصطناعي Zhang Yuxuan، على الرغم من أن MiniMax لم تعلن عن المعلمات المحددة والنقاط الفنية لنموذج الفيديو، إلا أنه يمكن أن نرى من فيديو إنشاء النموذج المعروض أن خوارزمية الشركة لا تزال قوية جدًا، وأن Keling من Kuaishou عبارة عن هندسة نسبيًا أحسن.
وقال يان جونجي للصحفيين: "سواء كان الأمر يتعلق بالفيديو أو النص أو الصوت، فإن فكرة البحث والتطوير الأساسية لفريق MiniMax ليست تحسين الخوارزمية بنسبة 5٪ أو 10٪. والأهم من ذلك هو ما إذا كان من الممكن ذلك إذا كان من الممكن تحسينه عدة مرات، فيجب القيام بذلك، ولا يستحق القيام به إذا زاد بنسبة 5٪ فقط.
ومن المعلوم أن نموذج الفيديو الخاص بـ MiniMax هو الإصدار الأول حاليًا فقط وسيتم توفيره للمستخدمين مجانًا لفترة من الوقت، وسيتم توفير إصدار جديد قريبًا. "ستركز أعمال المتابعة على البيانات والخوارزمية نفسها، بما في ذلك التفاصيل الأكثر ملاءمة للاستخدام. على سبيل المثال، يتم حاليًا توفير مقاطع الفيديو النصية فقط. وفي المستقبل، سيتم إنشاء مقاطع الفيديو المبنية على الصور ومقاطع الفيديو النصية + الصور قال يان جونجي: "، بالإضافة إلى إمكانية التحرير والتحكم سيتم إصدارها واحدًا تلو الآخر". .
لا تزال لعبة "Black Myth: Wukong" تحظى بشعبية كبيرة، وقد أنشأ الذكاء الاصطناعي طريقة لعب جديدة في اللعبة. أشارت Google مؤخرًا في بحث إلى أنها أنشأت أول محرك ألعاب في الوقت الفعلي يعتمد على الذكاء الاصطناعي بالكامل - GameNGen، والذي يمكنه إنشاء رسومات اللعبة الخاصة بلعبة الرماية الكلاسيكية "Doom" في الوقت الفعلي بمعدل 20 إطارًا في الثانية يتم إنشاء رسومات اللعبة في الوقت الفعلي بناءً على عمليات اللاعب والتفاعل مع البيئات المعقدة، ويتم التنبؤ بكل إطار بواسطة نموذج الانتشار.
لذا، هل سيكون الذكاء الاصطناعي بعيدًا في المستقبل لإنشاء روائع ألعاب 3A في الوقت الفعلي؟ قال Yan Junjie إن "Black Myth: Wukong" لا يزال يستخدم طريقة النمذجة والعرض التقليدية وقد تطورت هذه الطريقة ببطء شديد. وقد لا يكون إنشاء النص متاحًا على الإطلاق متاحة الآن وتتطور بسرعة.
"(إنشاء الفيديو) هو في الواقع مجرد البداية، لأن هذه هي السنة الأولى فقط، وسيكون التقدم سريعًا جدًا بالتأكيد. لا أعرف ما إذا كان بإمكانه استبدال محرك العرض التقليدي، ولكن على الأقل يمكن أن يوفر إمكانية لأن التقدم سريع، على المدى الطويل، كلما كان التقدم أسرع، كان ذلك أفضل." قال يان جونجي.
نمو كبير في الاستخدام وتعزيز القدرة التنافسية للنموذج
"السرعة" هي كلمة رئيسية ذكرها Yan Junjie عدة مرات. "سواء كنا نقوم بـ MoE أو الاهتمام الخطي أو الاستكشافات الأخرى، فإن الجوهر هو جعل نفس نموذج التأثير أسرع." قال Yan Junjie إن السرعة جيدة، مما يعني أن نفس قوة الحوسبة يمكن أن تصبح أفضل. وهذا هو نهج MiniMax البحث والتطوير الأساسي.
وفي الوقت نفسه، أشار أيضًا إلى أن كيفية التخفيض المستمر لمعدل خطأ النموذج، والمدخلات والمخرجات الطويلة بلا حدود، والطرق المتعددة هي ثلاثة تحديات تحتاج الصناعة إلى الاستمرار في حلها.
وفقًا للشركة، شهدت MiniMax تغييرين تكنولوجيين أساسيين في الماضي، بما في ذلك MoE (مزيج الخبراء، نموذج الخبراء المختلط) والانتباه الخطي (الانتباه الخطي). في أبريل من هذا العام، قامت الشركة بتطوير نموذج جيل جديد يعتمد على MoE+ Linear Attention، والذي يشبه GPT-4o.
تظهر المعلومات العامة أن MiniMax هي شركة ناشئة في مجال الذكاء الاصطناعي تأسست في ديسمبر 2021. وقد أسسها يان جونجي، نائب الرئيس السابق لشركة SenseTime والنائب السابق لمدير معهد الأبحاث، وأعضاؤها أساسًا من الذكاء الاصطناعي المعروف شركات مثل SenseTime.
يوضح تيانيانشا أنه في مارس من هذا العام، أكملت شركة MiniMax تمويلًا من السلسلة B بقيمة 600 مليون دولار أمريكي، مع شركة علي بابا كمستثمر، ووصل تقييمها إلى 2.5 مليار دولار أمريكي. سابقًا، في يونيو 2023، أكملت MiniMax تمويلًا من السلسلة A بقيمة تزيد عن 250 مليون دولار أمريكي، وكان المستثمر هو Tencent Investment.
بعد مرور عام على تأسيسها، طورت MiniMax بشكل مستقل بنية النموذج الأساسي لثلاثة أوضاع: تحويل النص إلى كلام، وتحويل النص إلى كلام، وتحويل النص إلى نص، كما قامت ببناء منصة تفكير حسابية تعتمد على النموذج الأساسي.
فيما يتعلق بالمنتجات، تعتني MiniMax بكل من أسواق الجانب B والجانب C. وتشمل تطبيقات الجانب C تطبيق الدردشة القائم على الذكاء الاصطناعي Glow، والبرنامج الاجتماعي القائم على الذكاء الاصطناعي Hoshino، ومساعد المحادثة الصوتية القائم على الذكاء الاصطناعي Conch WeChat، وما إلى ذلك. يوفر الجانب B حلولاً مخصصة للمؤسسات، وتسمح واجهة API للمؤسسات بالوصول إلى الإمكانات المختلفة لنموذج ABAB، حيث تستخدم شركات مثل Huoshan Engine وKingsoft Office وDingTalk وZhaopin Recruitment وChina Literature خدماتها. تظهر البيانات الرسمية أن نماذج MiniMax تتفاعل حاليًا مع المستخدمين العالميين أكثر من 3 مليارات مرة يوميًا، وتعالج أكثر من 3 تريليون رمز نصي و20 مليون صورة و70 ألف ساعة من الصوت. قبل عام، كان وقت تفاعل MiniMax يمثل 3% فقط من ChatGPT، والآن زادت هذه النسبة إلى 53%.
منذ شهر مايو، اندلعت حرب أسعار في مجال النماذج الكبيرة، وانخفضت واجهات برمجة التطبيقات إلى "أسعار الملفوف". عند الحديث عن حرب الأسعار النموذجية الكبيرة، أشار يان جونجي إلى أنه مع حرب الأسعار، بدأت العديد من الشركات التقليدية على استعداد لاستخدام النماذج الكبيرة، "بشكل موضوعي، زاد عدد مكالمات النماذج بشكل كبير".
وفي الوقت نفسه، يعزز هذا أيضًا تحسين أداء النموذج من الجانب، كما أصبحت النماذج الكبيرة في الصين قادرة على المنافسة في جنوب شرق آسيا ودول خارجية أخرى. "إنها منافسة شرسة بين النماذج المحلية التي يجب علينا المضي قدمًا فيها. على الأقل في البلدان غير الناطقة باللغة الإنجليزية، يمكننا تحقيق مستوى مماثل لـ GPT." قال يان جونجي إن المنافسة أمر لا مفر منه. يجب علينا أن نسعى جاهدين لبذل قصارى جهدنا. يظهر الجانب المتفائل تغييرين إيجابيين: الأول، أن استخدام النماذج المحلية الكبيرة ينمو بشكل ملحوظ، والثاني، أن النماذج الصينية أصبحت بالفعل أكثر وأكثر قدرة على المنافسة في الخارج.
قال يان جونجي إن معظم الشركات اعتقدت أن النماذج الكبيرة كانت باهظة الثمن، ولكن لاحقًا اعتقد الكثير من الناس أن النماذج الكبيرة كانت رخيصة ويمكن استخدامها بثقة. في النهاية، فوجئت عندما وجدت أن العديد من الشركات التقليدية على استعداد تام لاستخدام نماذج كبيرة، حيث يعتقدون أن التكلفة منخفضة على أي حال، ولا يهم إذا ارتكبوا أخطاء، يمكنهم فقط تسميتها مرة أخرى. من الناحية الموضوعية، أدى هذا إلى زيادة كبيرة في عدد استدعاءات النماذج، وبالتالي تعزيز أداء النموذج بشكل أفضل، في الوقت الحالي على الأقل، في اللغات غير الإنجليزية، يكون مستوى النماذج الكبيرة المحلية مشابهًا لـ GPT. لذلك، من منظور متفائل، فإن استخدام النماذج المحلية الكبيرة ينمو بشكل كبير بالفعل، وأصبحت نماذج الذكاء الاصطناعي الكبيرة في الصين أكثر تنافسية في الخارج.
عند الحديث عن إمكانية المنافسة المباشرة مع شركات الإنترنت الكبرى، قال يان جونجي إن ما يمكنه فعله هو تضخيم الأشياء التي لديها القدرة على أن تصبح أقوى بشكل لا نهائي. أحدهما هو كيفية تحسين التكنولوجيا، والآخر هو كيفية ذلك إنشاء تعاون أفضل مع المستخدمين.