في الآونة الأخيرة ، أثارت دراسة أجرتها معهد أبحاث Bytedance وجامعة Tsinghua أسئلة حول قدرة الفهم الجسدي لنماذج توليد الفيديو AI الحالية. من خلال التجارب المصممة بعناية ، وجد فريق البحث أن هذه النماذج ، مثل Sora من Openai ، على الرغم من أنها مثيرة للإعجاب بصريًا ، لم تفهم حقًا القوانين الفيزيائية الأساسية ، ولكنها اعتمدت بدلاً من ذلك على اللون والحجم والتعلم وتحديد أولويات السطح مثل السرعة و شكل. دفعت هذه الدراسة إلى تفكير الناس المتعمق في واقع محاكاة الذكاء الاصطناعي ، وكذلك تتحدى نماذج الذكاء الاصطناعى التي تفتخر بقدراتهم الجسدية.
في الآونة الأخيرة ، أصدر باحثون من معهد أبحاث بيتيانس وجامعة تسينغهوا دراسة جديدة ، مشيرين إلى أن نموذج توليد الفيديو الذكري الحالي ، مثل SORA Openai ، يمكنه إنشاء مؤثرات بصرية مذهلة ، ولكنهم يفهمون الفيزياء الأساسية. . أثارت هذه الدراسة مناقشة مكثفة حول قدرة الذكاء الاصطناعي على محاكاة الواقع.
قام فريق البحث باختبار نموذج توليد الفيديو الذكاء وإنشاء ثلاثة سيناريوهات مختلفة ، وهي التنبؤ في الوضع المعروف ، والتنبؤ في وضع غير معروف ، ومجموعات جديدة من العناصر المألوفة. هدفهم هو معرفة ما إذا كانت هذه النماذج تتعلم بالفعل قوانين الفيزياء ، أو ما إذا كانت تعتمد فقط على ميزات السطح في التدريب.
من خلال الاختبار ، وجد الباحثون أن نماذج الذكاء الاصطناعى لم تتعلم القواعد المعمول بها عالميًا. بدلاً من ذلك ، فإنها تعتمد بشكل أساسي على ميزات السطح مثل اللون والحجم والسرعة والشكل عند إنشاء مقاطع فيديو ، واتباع ترتيب صارم من الأولوية: اللون مفضل ، يليه الحجم والسرعة والشكل.
في السيناريوهات المألوفة ، تؤدي هذه النماذج بشكل مثالي تقريبًا ، ولكن بمجرد مواجهة مواقف غير معروفة ، تبدو عاجزة. يوضح الاختبار في الدراسة حدود نماذج الذكاء الاصطناعى عند التعامل مع حركات الكائنات. على سبيل المثال ، عندما يتدرب النموذج باستخدام كرات سريعة الحركة للتنقل ذهابًا وإيابًا ، مع تزويدها بالكرات البطيئة أثناء الاختبار ، يوضح النموذج فعليًا أن الكرة تتغير فجأة بعد بضع إطارات. تنعكس هذه الظاهرة بوضوح في مقاطع الفيديو ذات الصلة.
يشير الباحثون إلى أن توسيع حجم النموذج أو زيادة بيانات التدريب لا يحل المشكلة. على الرغم من أن النماذج الكبيرة تعمل بشكل أفضل في ظل أنماط ومجموعات مألوفة ، إلا أنها لا تزال تفشل في فهم القوانين المادية الأساسية أو التعامل مع سيناريوهات تتجاوز نطاق التدريب. ذكر مؤلف الأبحاث Kang Bingyi: "إذا كانت تغطية البيانات جيدة بما يكفي في سيناريو محدد ، فقد يكون من الممكن تشكيل نموذج عالمي مُجهز." يجب أن يكون النموذج العالمي قادرًا على الترويج لما يتجاوز بيانات التدريب.
أظهر المؤلف المشارك Bingyi Kang هذا القيد على X ، موضحًا أنه عندما قاموا بتدريب النموذج بكرة سريعة الحركة من اليسار إلى اليمين والخلف ، ثم تم اختبارها بكرة بطيئة الحركة ، أظهر النموذج الكرة بعد قليل فقط الإطارات ، تغير الاتجاه فجأة (يمكنك رؤيته في دقيقة واحدة و 55 ثانية).
نتائج هذه الدراسة تتحدى برنامج SORA Openai. قال Openai إنه من المتوقع أن تتطور Sora إلى نموذج عالمي حقيقي من خلال التوسع المستمر ، وحتى يدعي أنه لديه فهم أساسي للتفاعل البدني والهندسة ثلاثية الأبعاد. لكن الباحثين يشيرون إلى أن التوسع البسيط بمفرده لا يكفي للسماح لتوليد الفيديو باكتشاف القوانين الفيزيائية الأساسية.
كما أعرب يان ليكون ، رئيس منظمة العفو الدولية في ميتا ، عن شكوكه حول هذا الموضوع ، معتقدًا أن ممارسة التنبؤ بالعالم من خلال توليد وحدات البكسل هي "مضيعة للوقت ومحكوم عليها بالفشل". على الرغم من ذلك ، ما زال الكثير من الناس يتطلعون إلى إصدار Openai لـ Sora كما هو مقرر في منتصف فبراير 2024 ، مما يدل على إمكانات توليد الفيديو.
النقاط الرئيسية:
وجد البحث أن نموذج توليد الفيديو الذكاء الاصطناعى له عيوب كبيرة في فهم القوانين الفيزيائية ويعتمد على الخصائص السطحية لبيانات التدريب.
لا يؤدي تحجيم حجم النموذج إلى حل المشكلة ، والتي لا تعمل بشكل جيد في سيناريوهات غير معروفة.
يواجه برنامج Openai's Sora تحديات ، ولا يمكن التوسع وحده تحقيق نموذج عالمي حقيقي.
باختصار ، أشارت هذه الدراسة إلى اتجاه تطوير تقنية توليد الفيديو من الذكاء الاصطناعي ، أي أن التوسع البسيط لا يمكن أن يحل المشكلة الأساسية لفهم القوانين المادية. في المستقبل ، تحتاج نماذج الذكاء الاصطناعى إلى تعلم وفهم المبادئ المادية بشكل أعمق من أجل تحقيق محاكاة وتنبؤ دقيق للعالم الحقيقي ، بدلاً من مجرد البقاء في مرحلة تقليد ميزات السطح.