Uma equipe de pesquisa da Universidade Nacional de Cingapura desenvolveu um modelo avançado de linguagem audiovisual de grande porte (av-LLM) chamado video-SALMONN, que é capaz de compreender o conteúdo visual, de áudio e de fala em vídeos. O modelo conecta codificadores de áudio e vídeo pré-treinados com grandes modelos de linguagem por meio de uma inovadora estrutura Q-Former causal de multi-resolução para alcançar uma compreensão abrangente do conteúdo de vídeo. Esta tecnologia inovadora alcançou resultados notáveis em tarefas como resposta a perguntas por vídeo, abrindo um novo caminho para a aplicação da inteligência artificial na compreensão e raciocínio de vídeo, e espera-se que traga aplicações generalizadas na educação, na medicina e em outros campos.
Recentemente, Wenyi Yu e sua equipe da Universidade Nacional de Cingapura propuseram uma nova tecnologia chamada video-SALMONN, que não só é capaz de compreender sequências de quadros visuais, eventos de áudio e conteúdo de voz em vídeos. A introdução desta tecnologia marca um passo importante para permitir que as máquinas compreendam o conteúdo de vídeo.
Video-SALMONN é um modelo de linguagem audiovisual de ponta a ponta (av-LLM) que combina codificadores de áudio e vídeo pré-treinados com uma nova estrutura Q-Former causal de multi-resolução (MRC Q-Former). o corpo de um grande modelo de linguagem. Essa estrutura não apenas captura as informações temporais refinadas necessárias para a compreensão da fala, mas também garante o processamento eficiente de outros elementos de vídeo.
A fim de melhorar o processamento balanceado de diferentes elementos de vídeo do modelo, a equipe de pesquisa propôs métodos de treinamento especializados, incluindo perda de diversidade e estratégias de treinamento híbrido de áudio e vídeo não pareados para evitar o domínio de quadros ou modalidades de vídeo.
No recentemente introduzido Speech-Audio-Visual Evaluation Benchmark (SAVE), o Video-SALMONN alcançou uma melhoria absoluta na precisão de mais de 25% na tarefa de resposta a perguntas em vídeo (vídeo-QA) e alcançou uma melhoria absoluta na precisão de mais de 25 % na tarefa de resposta a perguntas de áudio e vídeo envolvendo fala humana. Foi alcançada uma melhoria absoluta na precisão de mais de 30%. Além disso, o Video-SALMONN demonstra excelentes capacidades de compreensão e raciocínio de vídeo em tarefas sem precedentes para outros av-LLMs.
O núcleo do vídeo-SALMONN é a estrutura Q-Former causal de multi-resolução (MRC), que alinha recursos de entrada de áudio e vídeo sincronizados e espaço de representação de texto em três escalas de tempo diferentes para atender à dependência de diferentes tarefas em diferentes elementos de vídeo. . Além disso, a fim de fortalecer a relação causal temporal entre quadros de vídeo consecutivos, uma estrutura causal de autoatenção com uma máscara causal especial é incluída no MRC Q-Former.
A proposta do Video-SALMONN não só traz novas ferramentas de pesquisa para a comunidade acadêmica, mas também oferece amplas possibilidades de aplicações práticas. Torna a interação entre a tecnologia e o ser humano mais natural e intuitiva, reduzindo a dificuldade dos usuários, principalmente crianças e idosos, em aprender a usar a tecnologia. Ao mesmo tempo, também tem potencial para melhorar a acessibilidade da tecnologia, inclusive para pessoas com deficiência motora.
A proposta do video-SALMONN é um passo importante para a realização da inteligência artificial geral (AGI). Ao integrar a entrada de fala, bem como a entrada de áudio e visual não verbal existente, tais modelos obterão uma compreensão abrangente das interações e ambientes humanos, permitindo que sejam aplicados a uma gama mais ampla de domínios.
O desenvolvimento desta tecnologia terá, sem dúvida, um impacto profundo na análise de conteúdo de vídeo, nas aplicações educacionais e na melhoria da qualidade de vida das pessoas. À medida que a tecnologia continua a avançar, temos razões para acreditar que a IA do futuro será mais inteligente e mais próxima das necessidades humanas.
Endereço do artigo: https://arxiv.org/html/2406.15704v1
O progresso revolucionário da tecnologia de vídeo-SALMONN indica que a inteligência artificial atingiu um novo marco no campo da compreensão de vídeo, e vale a pena esperar pelas suas amplas perspectivas de aplicação. No futuro, o desenvolvimento contínuo de tecnologias semelhantes promoverá ainda mais a profunda integração da inteligência artificial e da sociedade humana.