علم محرر موقع Downcodes أن باحثين من معهد أبحاث ByteDance وجامعة Tsinghua أصدروا مؤخرًا دراسة كشفت عن عيوب كبيرة في نماذج إنشاء فيديو الذكاء الاصطناعي الحالية مثل OpenAI’s Sora في فهم القوانين الفيزيائية. ومن خلال سلسلة من الاختبارات، بحثت الدراسة في أداء هذه النماذج في سيناريوهات مختلفة، وحللت الآليات التي تقف وراءها. تحذر نتائج البحث من القيود المفروضة على تكنولوجيا توليد الفيديو الحالية بالذكاء الاصطناعي، مما أثار تفكيرًا واسع النطاق في الصناعة حول قدرة الذكاء الاصطناعي على محاكاة الواقع.
واختبر فريق البحث نموذج توليد الفيديو بالذكاء الاصطناعي ووضع ثلاثة سيناريوهات مختلفة، وهي التنبؤ في ظل الأوضاع المعروفة، والتنبؤ في ظل الأوضاع غير المعروفة، ومجموعات جديدة من العناصر المألوفة. كان هدفهم هو معرفة ما إذا كانت هذه النماذج قد تعلمت بالفعل قوانين الفيزياء أم أنها اعتمدت ببساطة على السمات السطحية في التدريب.
ومن خلال الاختبار، وجد الباحثون أن نماذج الذكاء الاصطناعي هذه لم تتعلم القواعد القابلة للتطبيق عالميًا. بدلاً من ذلك، يعتمدون بشكل أساسي على ميزات السطح مثل اللون والحجم والسرعة والشكل عند إنشاء مقاطع الفيديو، ويتبعون ترتيبًا صارمًا للأولوية: اللون أولاً، يليه الحجم والسرعة والشكل.
كان أداء هذه النماذج مثاليًا تقريبًا في السيناريوهات المألوفة، لكنها لم تكن قادرة على القيام بذلك بمجرد مواجهة مواقف غير معروفة. يوضح أحد الاختبارات في الدراسة القيود المفروضة على نماذج الذكاء الاصطناعي عند التعامل مع حركة الكائن. على سبيل المثال، عندما تم تدريب النموذج باستخدام كرة سريعة الحركة تتحرك ذهابًا وإيابًا، ولكن عند اختباره باستخدام كرة بطيئة الحركة، أظهر النموذج بالفعل أن الكرة غيرت اتجاهها فجأة بعد عدة إطارات. وتنعكس هذه الظاهرة بوضوح أيضًا في مقاطع الفيديو ذات الصلة.
ويشير الباحثون إلى أن مجرد توسيع نطاق النموذج أو إضافة المزيد من بيانات التدريب لن يحل المشكلة. في حين أن النماذج الأكبر حجمًا تؤدي أداءً أفضل مع الأنماط والمجموعات المألوفة، إلا أنها لا تزال تفشل في فهم الفيزياء الأساسية أو التعامل مع السيناريوهات التي تتجاوز نطاق تدريبها. ذكر كانج بينجي، المؤلف المشارك في الدراسة: "إذا كانت تغطية البيانات جيدة بما فيه الكفاية في سيناريو معين، فقد يتم تشكيل نموذج عالمي مفرط." لكن هذا النموذج لا يلبي تعريف نموذج العالم الحقيقي، لأنه يجب أن يكون نموذج العالم الحقيقي تكون قادرة على تعميم ما يتجاوز بيانات التدريب.
أوضح المؤلف المشارك بينجي كانج هذا القيد على X، موضحًا أنه عندما قاموا بتدريب النموذج باستخدام كرة سريعة الحركة تتحرك من اليسار إلى اليمين والخلف، ثم اختبروها باستخدام كرة بطيئة الحركة، أظهر النموذج أن الكرة تتحرك فجأة يتغير الاتجاه بعد بضعة إطارات فقط (يمكنك رؤيته في الفيديو لمدة دقيقة و55 ثانية).
تشكل النتائج تحديًا لمشروع Sora الخاص بشركة OpenAI. صرحت OpenAI أنه من المتوقع أن يتطور Sora إلى نموذج عالمي حقيقي من خلال التوسع المستمر، بل وتدعي أن لديها بالفعل فهمًا أساسيًا للتفاعلات الفيزيائية والهندسة ثلاثية الأبعاد. لكن الباحثين يشيرون إلى أن التوسع البسيط وحده لا يكفي لنماذج توليد الفيديو لاكتشاف القوانين الفيزيائية الأساسية.
كما أعرب رئيس قسم الذكاء الاصطناعي في شركة ميتا، يان ليكون، عن شكوكه، قائلا إن التنبؤ بالعالم من خلال توليد وحدات البكسل هو "مضيعة للوقت ومحكوم عليه بالفشل". على الرغم من ذلك، لا يزال الكثير من الناس يتوقعون أن تقوم OpenAI بإصدار Sora كما هو مقرر في منتصف فبراير 2024 لإثبات قدرتها على إنشاء الفيديو.
يشير هذا البحث إلى اتجاه تطوير مجال إنشاء فيديو الذكاء الاصطناعي، ويذكرنا أيضًا أن تقييم قدرات الذكاء الاصطناعي لا يمكن أن يقتصر على التأثيرات السطحية فحسب، بل يحتاج أيضًا إلى التعمق في آلياته وقيوده المتأصلة. في المستقبل، ستظل كيفية السماح للذكاء الاصطناعي بفهم ومحاكاة العالم المادي تحديًا كبيرًا.