أطلقت Zhiyuan نموذج Video-XL، وهو نموذج كبير لفهم الفيديو الطويل للغاية على مستوى الساعة

الكاتب：Eve Cole وقت التحديث：2024-12-03 20:32:01

علم محرر موقع Downcodes أن معهد بكين تشي يوان لأبحاث الذكاء الاصطناعي قد تعاون مع عدد من الجامعات لإطلاق نموذج كبير لفهم الفيديو طويل للغاية يسمى Video-XL. يؤدي النموذج أداءً جيدًا في معالجة مقاطع الفيديو الطويلة لأكثر من عشر دقائق، ويحقق مراكز رائدة في معايير متعددة، ويظهر قدرات تعميمية قوية وكفاءة معالجة. يستخدم Video-XL نماذج لغوية لضغط التسلسلات المرئية الطويلة ويحقق دقة تصل إلى 95% تقريبًا في مهام مثل "البحث عن إبرة في كومة قش". ويحتاج فقط إلى بطاقة رسومات مزودة بذاكرة فيديو بسعة 80 جيجا بايت لمعالجة 2048 إطارًا من الإدخال. سيعمل المصدر المفتوح لهذا النموذج على تعزيز التعاون وتطوير مجتمع أبحاث فهم الفيديو العالمي متعدد الوسائط.

تعاون معهد بكين تشي يوان لأبحاث الذكاء الاصطناعي مع جامعات مثل جامعة شنغهاي جياو تونغ، وجامعة رنمين الصينية، وجامعة بكين، وجامعة بكين للبريد والاتصالات لإطلاق نموذج كبير لفهم الفيديو طويل جدًا يسمى Video-XL. يعد هذا النموذج عرضًا مهمًا للقدرات الأساسية للنماذج الكبيرة متعددة الوسائط وخطوة رئيسية نحو الذكاء الاصطناعي العام (AGI). بالمقارنة مع النماذج الكبيرة الحالية متعددة الوسائط، يُظهر Video-XL أداءً وكفاءة أفضل عند معالجة مقاطع الفيديو الطويلة التي تزيد مدتها عن 10 دقائق.

يستخدم Video-XL القدرات الأصلية لنماذج اللغة (LLM) لضغط التسلسلات المرئية الطويلة، ويحتفظ بالقدرة على فهم مقاطع الفيديو القصيرة، ويظهر إمكانات تعميم ممتازة في فهم الفيديو الطويل. يحتل هذا النموذج المرتبة الأولى في المهام المتعددة وفقًا لمعايير فهم الفيديو الطويلة السائدة. يحقق Video-XL توازنًا جيدًا بين الكفاءة والأداء، فهو يحتاج فقط إلى بطاقة رسوميات بذاكرة فيديو 80 جيجا لمعالجة إدخال 2048 إطارًا، وعينة مقاطع فيديو مدتها ساعة، وتحقيق ما يقرب من 95% في مهمة الفيديو "إبرة في كومة قش". ٪ دقة.

من المتوقع أن يُظهر Video-XL قيمة تطبيق واسعة النطاق في سيناريوهات التطبيق مثل تلخيص الأفلام، واكتشاف شذوذ الفيديو، واكتشاف موضع الإعلان، ويصبح مساعدًا قويًا لفهم الفيديو الطويل. ويمثل إطلاق هذا النموذج خطوة مهمة في كفاءة ودقة تقنية فهم الفيديو الطويل، ويوفر دعمًا فنيًا قويًا للمعالجة والتحليل الآلي لمحتوى الفيديو الطويل في المستقبل.

في الوقت الحالي، أصبح الكود النموذجي لـ Video-XL مفتوح المصدر لتعزيز التعاون ومشاركة التكنولوجيا في مجتمع أبحاث فهم الفيديو العالمي متعدد الوسائط.

عنوان الورقة: Video-XL: نموذج لغة الرؤية الطويلة جدًا لفهم الفيديو على نطاق الساعة

رابط الورقة: https://arxiv.org/abs/2409.14485

رابط الموديل: https://huggingface.co/sy1998/Video_XL

رابط المشروع: https://github.com/VectorSpaceLab/Video-XL

يوفر المصدر المفتوح لـ Video-XL إمكانيات جديدة للبحث والتطبيق في مجال فهم الفيديو الطويل وستعمل كفاءته ودقته على تعزيز التطوير الإضافي للتقنيات ذات الصلة وتوفير الدعم الفني لمزيد من سيناريوهات التطبيق في المستقبل. ونحن نتطلع إلى رؤية المزيد من التطبيقات المبتكرة المعتمدة على Video-XL في المستقبل.