لقد كان فهم الفيديو الطويل دائمًا تحديًا كبيرًا في مجال تحليل الفيديو، فالنماذج التقليدية غير فعالة عند معالجة مقاطع الفيديو الطويلة ويصعب استخلاص المعلومات الأساسية بشكل فعال. يقدم هذا البحث تقنية ضغط علامات الفيديو الهرمية التي تسمى HiCo، ونظام "VideoChat-Flash" القائم على هذه التقنية، والذي يحسن بشكل كبير مهمة "الإبرة في كومة القش" من خلال التعلم متعدد المراحل وتحسين قدرات فهم الفيديو الطويل وتقليل حجمه بشكل كبير. متطلبات الحوسبة. قام فريق البحث ببناء مجموعة بيانات كبيرة تحتوي على 300000 ساعة من الفيديو و200 مليون كلمة من التعليقات التوضيحية للتدريب النموذجي والتقييم.
على وجه التحديد، تعمل HiCo على تقليل التعقيد الحسابي عن طريق تقسيم مقاطع الفيديو الطويلة إلى مقاطع قصيرة وضغط المعلومات الزائدة عن الحاجة، مع الاستفادة من الارتباطات الدلالية مع استعلامات المستخدم لتقليل عدد العلامات التي تتم معالجتها بشكل أكبر. يعتمد "VideoChat-Flash" نظامًا تعليميًا متعدد المراحل، يستخدم أولاً مقاطع فيديو قصيرة للضبط الدقيق الخاضع للإشراف، ثم يقدم تدريجيًا تدريبًا طويلًا عبر الفيديو، ويحقق أخيرًا فهمًا شاملاً للنصوص المختلطة الطول. بالإضافة إلى ذلك، تعمل مهمة "الإبرة في كومة القش" المحسّنة على تحسين فهم النموذج للسياق وتكوينات الفيديو متعددة القفزات.
في التنفيذ المحدد لمعالجة الفيديو الطويل، يعتمد "VideoChat-Flash" نظامًا تعليميًا متعدد المراحل من مقاطع الفيديو القصيرة إلى مقاطع الفيديو الطويلة. استخدم الباحثون أولاً مقاطع فيديو قصيرة وما يقابلها من تعليقات توضيحية للضبط الدقيق تحت الإشراف، ثم قدموا تدريجيًا مقاطع فيديو طويلة للتدريب، وحققوا أخيرًا فهمًا شاملاً للنصوص المختلطة الطول. لا تعمل هذه الطريقة على تحسين قدرات الإدراك البصري للنموذج فحسب، بل توفر أيضًا دعمًا غنيًا للبيانات لمعالجة الفيديو الطويل. قام فريق البحث بإنشاء مجموعة بيانات ضخمة تحتوي على 300000 ساعة من الفيديو و200 مليون كلمة من التعليقات التوضيحية.
بالإضافة إلى ذلك، تم اقتراح مهمة محسنة "إبرة في كومة قش" في الدراسة لتكوينات الفيديو متعددة القفزات. باستخدام المعيار الجديد، لا يحتاج النموذج إلى العثور على صورة مستهدفة واحدة في الفيديو فحسب، بل يحتاج أيضًا إلى فهم تسلسلات صور متعددة مترابطة، وبالتالي تحسين قدرة النموذج على فهم السياق.
تظهر النتائج التجريبية أن الطريقة المقترحة تقلل من العمليات الحسابية بمقدار أمرين من حيث الحجم، خاصة أنها تؤدي أداءً جيدًا في الاختبارات المعيارية لمقاطع الفيديو القصيرة والطويلة، لتصبح رائدة في المجال الجديد لفهم الفيديو القصير. وفي الوقت نفسه، يتفوق هذا النموذج أيضًا على النماذج مفتوحة المصدر الموجودة في فهم الفيديو الطويل، مما يُظهر إمكانات قوية لتحديد المواقع في الوقت المناسب.
الورقة: https://arxiv.org/abs/2501.00574
تسليط الضوء على:
اقترح الباحثون تقنية ضغط علامات الفيديو الهرمية HiCo، والتي تقلل بشكل كبير من المتطلبات الحسابية لمعالجة الفيديو الطويل.
يعتمد نظام "VideoChat-Flash" طريقة تعليمية متعددة المراحل ويجمع بين مقاطع الفيديو القصيرة والطويلة للتدريب، مما يحسن قدرة فهم النموذج.
وتظهر النتائج التجريبية أن هذه الطريقة تصل إلى معايير أداء جديدة في اختبارات قياس متعددة وتصبح نموذجا متقدما في مجال معالجة الفيديو الطويل.
بشكل عام، يوفر هذا البحث حلاً جديدًا لفهم الفيديو الطويل الفعال، وقد حققت تقنية HiCo ونظام VideoChat-Flash اختراقات كبيرة في الكفاءة الحسابية وأداء النموذج، مما يضع الأساس لتطبيقات تحليل الفيديو الطويل في المستقبل. نتائج البحث لها أهمية نظرية هامة وقيمة التطبيق العملي.