Un equipo de investigación de la Universidad Nacional de Singapur ha desarrollado un modelo audiovisual avanzado de lenguaje grande (av-LLM) llamado video-SALMONN, que es capaz de comprender el contenido visual, de audio y de voz de los vídeos. El modelo conecta codificadores de audio y video previamente entrenados con modelos de lenguaje grandes a través de una innovadora estructura Q-Former causal de múltiples resoluciones para lograr una comprensión integral del contenido de video. Esta innovadora tecnología ha logrado resultados notables en tareas como la respuesta a preguntas en video, abriendo un nuevo camino para la aplicación de la inteligencia artificial en la comprensión y el razonamiento por video, y se espera que genere aplicaciones generalizadas en la educación, la medicina y otros campos.
Recientemente, Wenyi Yu y su equipo de la Universidad Nacional de Singapur propusieron una nueva tecnología llamada video-SALMONN, que no solo es capaz de comprender secuencias de fotogramas visuales, eventos de audio y música en contenidos de voz; La introducción de esta tecnología marca un paso importante para permitir que las máquinas comprendan el contenido de vídeo.
Video-SALMONN es un modelo de lenguaje grande audiovisual de extremo a extremo (av-LLM) que combina codificadores de audio y video previamente entrenados con una novedosa estructura Q-Former causal de resolución múltiple (MRC Q-Former) Connect with. el cuerpo de un modelo de lenguaje grande. Esta estructura no sólo captura la información temporal detallada necesaria para la comprensión del habla, sino que también garantiza un procesamiento eficiente de otros elementos de vídeo.
Para mejorar el procesamiento equilibrado del modelo de diferentes elementos de video, el equipo de investigación propuso métodos de entrenamiento especializados, incluida la pérdida de diversidad y estrategias de entrenamiento híbrido de audio y video no emparejado para evitar el dominio de los fotogramas o modalidades de video.
En el nuevo punto de referencia de evaluación de voz, audio y video (SAVE), Video-SALMONN logró una mejora absoluta en la precisión de más del 25% en la tarea de respuesta a preguntas en video (video-QA), y logró una mejora absoluta en la precisión de más del 25%. % en la tarea de respuesta a preguntas en audio y vídeo que involucran el habla humana. Se logró una mejora absoluta en la precisión de más del 30 %. Además, Video-SALMONN demuestra una excelente comprensión de vídeo y capacidades de razonamiento en tareas sin precedentes para otros av-LLM.
El núcleo de video-SALMONN es la estructura Q-Former causal de resolución múltiple (MRC), que alinea las características de entrada de audio y video sincronizadas y el espacio de representación de texto en tres escalas de tiempo diferentes para satisfacer la dependencia de diferentes tareas de diferentes elementos de video. . Además, para fortalecer la relación causal temporal entre fotogramas de vídeo consecutivos, en MRC Q-Former se incluye una estructura causal de autoatención con una máscara causal especial.
La propuesta de Video-SALMONN no sólo acerca nuevas herramientas de investigación a la comunidad académica, sino que también brinda amplias posibilidades de aplicaciones prácticas. Hace que la interacción entre la tecnología y los humanos sea más natural e intuitiva, reduciendo la dificultad para los usuarios, especialmente niños y ancianos, de aprender a utilizar la tecnología. Al mismo tiempo, también tiene el potencial de mejorar la accesibilidad de la tecnología, incluso para las personas con discapacidades motrices.
La propuesta de video-SALMONN es un paso importante hacia la realización de la inteligencia artificial general (AGI). Al integrar la entrada de voz, así como la entrada de audio y visual existente, no hablada, dichos modelos obtendrán una comprensión integral de las interacciones y los entornos humanos, lo que permitirá su aplicación a una gama más amplia de dominios.
Sin duda, el desarrollo de esta tecnología tendrá un profundo impacto en el análisis de contenido de vídeo, las aplicaciones educativas y la mejora de la calidad de vida de las personas. A medida que la tecnología continúa avanzando, tenemos motivos para creer que la IA del futuro será más inteligente y más cercana a las necesidades humanas.
Dirección del artículo: https://arxiv.org/html/2406.15704v1
El gran avance de la tecnología de video-SALMONN indica que la inteligencia artificial ha alcanzado un nuevo hito en el campo de la comprensión del video, y vale la pena esperar con ansias sus amplias perspectivas de aplicación. En el futuro, el desarrollo continuo de tecnologías similares promoverá aún más la profunda integración de la inteligencia artificial y la sociedad humana.