Doubao: نموذج توليد الفيديو "VideoWorld" كان مفتوح المصدر لتحقيق التعلم البصري الخالص - AI مقالات

الكاتب：Eve Cole وقت التحديث：2025-02-14 16:16:02

وفقًا للمسؤولية الرسمية الرسمية لفريق Doubao Big Model ، بموجب البحث المشترك لجامعة بكين جياوتونج وجامعة العلوم والتكنولوجيا في الصين ، تم افتتاح نموذج تجريبي للفيديو "Videoorld" الذي اقترحه فريق Doubao Big Model مؤخرًا.

أكبر تسليط الضوء على هذا النموذج هو أنه لم يعد يعتمد على نماذج اللغة التقليدية ، ولكن يمكنه التعرف على العالم وفهمه على أساس المعلومات البصرية وحدها. استلهم هذا البحث الذي حققه هذا البحث من مفهوم البروفيسور لي فايفيني بأن "الأطفال الصغار يمكنهم فهم العالم الحقيقي دون الاعتماد على اللغة" المذكورة في خطابه تيد.

يدرك "VideoWorld" إمكانات الاستدلال والتخطيط واتخاذ القرارات المعقدة من خلال تحليل ومعالجة كميات كبيرة من بيانات الفيديو. أظهرت تجارب فريق البحث أن النموذج حقق نتائج مهمة مع 300 متر فقط. على عكس النماذج الحالية التي تعتمد على بيانات اللغة أو العلامات ، يمكن للفيديو أن يتعلم المعرفة بشكل مستقل ، وخاصة في المهام المعقدة مثل اوريغامي وروابط القوس ، والتي يمكن أن توفر طريقة تعليمية أكثر سهولة.

من أجل التحقق من فعالية هذا النموذج ، أنشأ فريق البحث بيئتين تجريبيتين: Go Battle and Robot Simulation Control. باعتبارها لعبة استراتيجية للغاية ، يمكن لـ GO تقييم قدرة التعلم وقاعدة النموذج بشكل فعال ، في حين أن مهام الروبوت تدرس أداء النموذج في التحكم والتخطيط. خلال مرحلة التدريب ، يحدد النموذج تدريجياً القدرة على التنبؤ بالصور المستقبلية من خلال مشاهدة كمية كبيرة من بيانات عرض الفيديو.

لتحسين كفاءة تعلم الفيديو ، قدم الفريق نموذج ديناميكي محتمل (LDM) مصمم لضغط التغييرات البصرية بين إطارات الفيديو لاستخراج المعلومات الهامة. هذه الطريقة لا تقلل فقط من المعلومات الزائدة ، ولكن أيضًا تعزز كفاءة التعلم للنموذج للمعرفة المعقدة. من خلال هذا الابتكار ، يوضح VideoWorld قدرات رائعة في المهام GO والمهام الآلية ، وحتى تصل إلى مستوى الذهاب إلى الخمس مراحل.

رابط الورق: https://arxiv.org/abs/2501.09781

رابط الرمز: https://github.com/bytedance/videoWorld

Project Homepage: https://maverickren.github.io/videoworld.github.io

النقاط الرئيسية:

يمكن أن يدرك نموذج "VideoWorld" تعلم المعرفة استنادًا إلى المعلومات المرئية وحدها ، ولا يعتمد على نماذج اللغة.

يوضح النموذج قدرات التفكير والتخطيط الممتازة في مهام محاكاة GO و Robot.

تم تصميم رمز المشروع ونموذجه من مصادر ، وأشخاص من جميع مناحي الحياة مرحب بهم للمشاركة في التجربة والتبادل.