مع التطور السريع لنموذج اللغة الكبيرة متعددة الوسائط (MLLM) ، أصبحت المعالجة الفعالة للفيديو الطويلة جدًا موضوعًا ساخنًا في الأبحاث الحالية. غالبًا ما تقتصر النماذج الحالية على طول السياق والتكلفة الحسابية ، مما يجعل من الصعب فهم مقاطع الفيديو كل ساعة بشكل فعال. استجابةً لهذا التحدي ، أطلق معهد Zhiyuan Research معهد أبحاث Zhiyuan والعديد من الجامعات Video-XL ، وهو نموذج لغة مرئية طويلة جدًا مصمم خصيصًا لفهم الفيديو الفعال على مستوى الساعة.
حاليًا ، أحرز نموذج اللغة الكبيرة متعددة الوسائط (MLLM) تقدمًا كبيرًا في مجال فهم الفيديو ، لكن التعامل مع مقاطع الفيديو الطويلة للغاية لا يزال يمثل تحديًا. وذلك لأن MLLMs غالباً ما تكافح للتعامل مع الآلاف من العلامات البصرية التي تتجاوز الحد الأقصى لطول السياق وتتأثر بتخفيف المعلومات الناجم عن تجميع علامة. في الوقت نفسه ، سيجلب عدد كبير من علامات الفيديو أيضًا تكاليف حوسبة عالية.
لحل هذه المشكلات ، اقترح معهد أبحاث Zhiyuan فيديو XL بالتزامن مع جامعة شنغهاي جياوتونج ، وجامعة رينمين الصين ، وجامعة بكين ، وجامعة بكين للواقع والاتصالات ، وهي مخصصة مخصصة لتفاهم الفيديو نموذج اللغة. تقع في قلب تقنية "الملخص المحتمل للسياق البصري" ، والتي تستخدم إمكانيات نمذجة السياق المتأصلة في LLM لضغط التمثيلات المرئية الطويلة بشكل فعال في أشكال أكثر إحكاما.
ببساطة ، هو ضغط محتوى الفيديو في شكل أكثر تبسيطًا ، تمامًا مثل تركيز لحم البقر الكامل في وعاء من جوهر اللحم البقري ، وهو مريح للنموذج لهضم وامتصاص.
لا تعمل تقنية الضغط هذه على تحسين الكفاءة فحسب ، بل تحتفظ أيضًا بشكل فعال بالمعلومات الرئيسية للفيديو. يجب أن تعلم أن مقاطع الفيديو الطويلة غالبًا ما تمتلئ بالكثير من المعلومات الزائدة عن الحاجة ، تمامًا مثل ربط قدم السيدة العجوز ، وهو طويل ورائحة. يمكن للفيديو-XL التخلص من هذه المعلومات عديمة الفائدة بدقة والاحتفاظ بجوهر فقط ، مما يضمن أن النموذج لن يفقد اتجاهه عند فهم محتوى الفيديو الطويل.
Video-XL ليس قويًا جدًا من الناحية النظرية فحسب ، بل يتمتع أيضًا بقدرة عملية قوية للغاية. تقود Video-XL الطريق في معايير متعددة لفهم الفيديو ، وخاصة في اختبار Vnbench ، بدقة أعلى بنسبة 10 ٪ تقريبًا من أفضل الطرق الحالية.
الأمر الأكثر إثارة للإعجاب هو أن الفيديو-XL يحقق توازنًا مذهلاً بين الكفاءة والفعالية ، يمكنه معالجة 2048 إطارات الفيديو على وحدة معالجة الرسومات بنسبة 80 جيجا بايت مع الحفاظ على دقة 95 ٪ تقريبًا في معدل تقييم الإبرة في صندوق القش ".
يحتوي Video-XL على احتمال تطبيق واسع جدًا. بالإضافة إلى فهم مقاطع الفيديو العامة الطويلة العامة ، يمكن أن تكون مؤهلة أيضًا لبعض المهام ، مثل ملخص الأفلام ، ومراقبة الكشف عن الشذوذ والتعرف على زراعة الإعلانات.
هذا يعني أنه لا يتعين عليك تحمل المؤامرة الطويلة عند مشاهدة الأفلام في المستقبل. الأحداث ، وهو أكثر كفاءة من المطاردة اليدوية.
عنوان المشروع: https://github.com/vectorspacelab/video-xl
ورقة: https://arxiv.org/pdf/2409.14485
باختصار ، أحرزت Video-XL تقدمًا كبيرًا في مجال فهم الفيديو الطويل.