قام فريق بحث من جامعة سنغافورة الوطنية بتطوير نموذج صوتي ومرئي متقدم للغة كبيرة (av-LLM) يسمى video-SALMONN، وهو قادر على فهم المحتوى المرئي والصوتي والكلام في مقاطع الفيديو. يقوم النموذج بتوصيل أجهزة تشفير الصوت والفيديو المدربة مسبقًا مع نماذج اللغات الكبيرة من خلال بنية Q-Former السببية المبتكرة متعددة الدقة لتحقيق فهم شامل لمحتوى الفيديو. وقد حققت هذه التكنولوجيا المتقدمة نتائج ملحوظة في مهام مثل الإجابة على الأسئلة عبر الفيديو، وفتحت طريقًا جديدًا لتطبيق الذكاء الاصطناعي في الفهم والاستدلال عبر الفيديو، ومن المتوقع أن تجلب تطبيقات واسعة النطاق في مجالات التعليم والطب وغيرها.
في الآونة الأخيرة، اقترح ويني يو وفريقه في جامعة سنغافورة الوطنية تقنية جديدة تسمى video-SALMONN، وهي ليست قادرة فقط على فهم تسلسل الإطارات المرئية، والأحداث الصوتية، والموسيقى في المحتوى الصوتي؛ يمثل إدخال هذه التقنية خطوة مهمة في السماح للآلات بفهم محتوى الفيديو.
Video-SALMONN هو نموذج لغة كبير صوتي ومرئي شامل (av-LLM) يجمع بين أجهزة تشفير الصوت والفيديو المدربة مسبقًا مع بنية Q-Former (MRC Q-Former) السببية الجديدة متعددة الدقة جسد نموذج لغة كبير. لا يقتصر هذا الهيكل على التقاط المعلومات الزمنية الدقيقة المطلوبة لفهم الكلام فحسب، بل يضمن أيضًا المعالجة الفعالة لعناصر الفيديو الأخرى.
من أجل تحسين المعالجة المتوازنة للنموذج لعناصر الفيديو المختلفة، اقترح فريق البحث أساليب تدريب متخصصة، بما في ذلك فقدان التنوع واستراتيجيات التدريب الهجين للصوت والفيديو غير المقترنة لتجنب هيمنة إطارات أو طرائق الفيديو.
في معيار تقييم الكلام والصوت والصورة (SAVE) الذي تم تقديمه حديثًا، حقق Video-SALMONN تحسنًا مطلقًا في الدقة بنسبة تزيد عن 25% في مهمة الإجابة على أسئلة الفيديو (video-QA)، وحقق تحسينًا مطلقًا في الدقة بأكثر من 25% تم تحقيق تحسن مطلق في الدقة بنسبة تزيد عن 30% في مهمة الإجابة على الأسئلة الصوتية والمرئية التي تتضمن الكلام البشري. بالإضافة إلى ذلك، يُظهر Video-SALMONN قدرات ممتازة في فهم الفيديو والتفكير المنطقي في المهام غير المسبوقة بالنسبة إلى av-LLMs الآخرين.
جوهر video-SALMONN هو بنية Q-Former السببية متعددة الدقة (MRC)، والتي تعمل على محاذاة ميزات إدخال الصوت والفيديو المتزامنة ومساحة تمثيل النص على ثلاثة نطاقات زمنية مختلفة لتلبية اعتماد المهام المختلفة على احتياجات عناصر الفيديو المختلفة . بالإضافة إلى ذلك، ومن أجل تعزيز العلاقة السببية الزمنية بين إطارات الفيديو المتتالية، تم تضمين بنية الاهتمام الذاتي السببية مع قناع سببي خاص في MRC Q-Former.
لا يقدم اقتراح Video-SALMONN أدوات بحثية جديدة للمجتمع الأكاديمي فحسب، بل يوفر أيضًا إمكانيات واسعة للتطبيقات العملية. فهو يجعل التفاعل بين التكنولوجيا والبشر أكثر طبيعية وبديهية، مما يقلل من الصعوبة التي يواجهها المستخدمون، وخاصة الأطفال وكبار السن، في تعلم استخدام التكنولوجيا. وفي الوقت نفسه، لديها أيضًا القدرة على تحسين إمكانية الوصول إلى التكنولوجيا، بما في ذلك للأشخاص ذوي الإعاقات الحركية.
يعد اقتراح فيديو SALMONN خطوة مهمة نحو تحقيق الذكاء الاصطناعي العام (AGI). ومن خلال دمج مدخلات الكلام بالإضافة إلى المدخلات الصوتية والمرئية غير الكلامية، ستكتسب هذه النماذج فهمًا شاملاً للتفاعلات البشرية والبيئات، مما يسمح بتطبيقها على نطاق أوسع من المجالات.
ولا شك أن تطوير هذه التكنولوجيا سيكون له تأثير عميق على تحليل محتوى الفيديو والتطبيقات التعليمية وتحسين نوعية حياة الناس. مع استمرار التقدم التكنولوجي، لدينا سبب للاعتقاد بأن الذكاء الاصطناعي في المستقبل سيكون أكثر ذكاءً وأقرب إلى احتياجات الإنسان.
عنوان الورقة: https://arxiv.org/html/2406.15704v1
يشير التقدم المذهل الذي حققته تقنية video-SALMONN إلى أن الذكاء الاصطناعي قد وصل إلى مرحلة جديدة في مجال فهم الفيديو، وأن آفاق تطبيقه الواسعة تستحق التطلع إليها. وفي المستقبل، سيعمل التطوير المستمر للتقنيات المماثلة على تعزيز التكامل العميق بين الذكاء الاصطناعي والمجتمع البشري.