لقد كان فهم الفيديو الطويل دائمًا تحديًا في مجال الذكاء الاصطناعي، ومن الصعب على النماذج التقليدية التعامل مع المعلومات الزائدة عن الحاجة وقيود موارد الحوسبة. تقدم هذه المقالة تقنية جديدة تسمى Goldfish، والتي تحقق معالجة فعالة لمقاطع الفيديو مهما كان طولها من خلال آلية استرجاع فعالة ومساعدة MiniGPT4-Video. لا يقتصر الأمر على قدرة Goldfish على استخراج المقاطع الرئيسية وإنشاء إجابات دقيقة فحسب، بل إنها حققت أيضًا نتائج رائدة في العديد من اختبارات قياس الفيديو القصيرة، مما يدل على أدائها القوي وآفاق التطبيق الواسعة. بعد ذلك، سوف نتعمق في التفاصيل الفنية وتأثيرات التطبيق العملي لـ Goldfish.
في مجال فهم الفيديو، غالبًا ما تستطيع نماذج الذكاء الاصطناعي التقليدية التعامل مع مقاطع الفيديو القصيرة فقط، وتكون غير قادرة على التعامل مع محتوى الفيديو لعدة ساعات أو حتى لفترة أطول. ويرجع ذلك أساسًا إلى أن هذه النماذج تواجه قيود "الضوضاء والتكرار" و"الذاكرة والحساب" عند معالجة مقاطع الفيديو الطويلة. الآن، تكنولوجيا جديدة تسمى السمكة الذهبية تغير ذلك.
مدخل المنتج: https://top.aibase.com/tool/goldfish
Goldfish هي طريقة مصممة خصيصًا لمعالجة مقاطع الفيديو ذات الطول العشوائي. وهو يعتمد آلية استرجاع فعالة يمكنها أولاً استخراج أفضل مقاطع فيديو K الأكثر صلة بالتعليمات من الفيديو الطويل، ثم إنشاء الإجابة النهائية بناءً على هذه المقاطع. وبهذه الطريقة، يستطيع Goldfish التعامل بكفاءة مع محتوى الفيديو الطويل مثل الأفلام أو المسلسلات التلفزيونية.
ولتحقيق هذا الهدف، قام فريق Goldfish أيضًا بتطوير MiniGPT4-Video، وهي أداة يمكنها إنشاء أوصاف تفصيلية لمقاطع الفيديو. من خلال الجمع بين إطارات الفيديو والعناوين الفرعية، يستطيع MiniGPT4-Video فهم المعلومات المرئية والنصية بدقة في الفيديو، وبالتالي تحسين القدرة على معالجة مقاطع الفيديو الطويلة.
بالإضافة إلى ذلك، اقترح الفريق أيضًا اختبار TVQA-long، وهو اختبار مرجعي لتقييم قدرة النموذج على فهم مقاطع الفيديو الطويلة. وحققت السمكة الذهبية دقة بلغت 41.78% في هذا الاختبار، متجاوزة التقنيات السابقة.
ليس هذا فحسب، بل إن Goldfish يؤدي أداءً جيدًا أيضًا في فهم مقاطع الفيديو القصيرة. في العديد من معايير الفيديو القصيرة مثل MSVD، وMSRVTT، وTGIF، وTVQA، تفوقت Goldfish على الأساليب الحديثة الحالية، مما يدل على قوتها القوية في معالجة الفيديو القصير.
نجح برنامج Goldfish في التغلب على مشكلة معالجة مقاطع الفيديو الطويلة من خلال آليات الاسترجاع المبتكرة وطرق توليد الوصف الفعالة، بينما حقق أيضًا اختراقات كبيرة في فهم مقاطع الفيديو القصيرة.
**تم إضافة التأكيد:**
تقوم Goldfish بمعالجة مقاطع الفيديو بأي طول بنجاح من خلال آلية الاسترجاع الفعالة وتقنية توليد الوصف الخاصة بـ MiniGPT4-Video، مما يحل صعوبات النماذج التقليدية في معالجة مقاطع الفيديو الطويلة.
في الاختبار المعياري الذي دام طويلاً لـ TVQA، حققت Goldfish دقة تبلغ 41.78%، متجاوزة المستوى الفني السابق ومثبتة قدرات المعالجة القوية لديها.
يتفوق Goldfish على أحدث الأساليب الحالية في معايير الفيديو القصيرة المتعددة، مما يدل على قدراته الشاملة في فهم مقاطع الفيديو القصيرة.
بشكل عام، أظهرت Goldfish مزايا كبيرة في فهم مقاطع الفيديو الطويلة والقصيرة، مما أدى إلى تحقيق اختراقات جديدة في تطوير تكنولوجيا فهم الفيديو. إن آلية الاسترجاع الفعالة وإمكانيات توليد الوصف القوية تجعلها اتجاهًا تقنيًا مهمًا لتطبيقات فهم الفيديو المستقبلية. لا شك أن ظهور السمكة الذهبية سيعزز تحليل محتوى الفيديو وفهمه إلى مرحلة جديدة.