Une équipe de recherche de l’Université nationale de Singapour a développé un modèle avancé de langage audiovisuel (av-LLM) appelé vidéo-SALMONN, capable de comprendre le contenu visuel, audio et vocal des vidéos. Le modèle connecte des encodeurs audio et vidéo pré-entraînés avec de grands modèles de langage via une structure Q-Former causale multi-résolution innovante pour obtenir une compréhension complète du contenu vidéo. Cette technologie révolutionnaire a obtenu des résultats remarquables dans des tâches telles que la réponse à des questions vidéo, ouvrant une nouvelle voie pour l'application de l'intelligence artificielle à la compréhension et au raisonnement vidéo, et devrait apporter des applications généralisées dans les domaines de l'éducation, de la médecine et dans d'autres domaines.
Récemment, Wenyi Yu et son équipe de l'Université nationale de Singapour ont proposé une nouvelle technologie appelée vidéo-SALMONN, qui est non seulement capable de comprendre les séquences d'images visuelles, les événements audio et la musique dans le contenu vocal des vidéos ; L’introduction de cette technologie marque une étape importante pour permettre aux machines de comprendre le contenu vidéo.
Video-SALMONN est un modèle de langage audiovisuel de bout en bout (av-LLM) qui combine des encodeurs audio et vidéo pré-entraînés avec une nouvelle structure Q-Former causale multi-résolution (MRC Q-Former) Connect with. le corps d’un grand modèle de langage. Cette structure capture non seulement les informations temporelles fines nécessaires à la compréhension de la parole, mais garantit également un traitement efficace d'autres éléments vidéo.
Afin d'améliorer le traitement équilibré des différents éléments vidéo par le modèle, l'équipe de recherche a proposé des méthodes de formation spécialisées, notamment la perte de diversité et des stratégies de formation hybrides audio et vidéo non appariées pour éviter la domination des images ou des modalités vidéo.
Sur le nouveau benchmark d'évaluation vocale-audio-visuelle (SAVE), Video-SALMONN a obtenu une amélioration de la précision absolue de plus de 25 % sur la tâche de réponse aux questions vidéo (vidéo-QA), et a obtenu une amélioration de la précision absolue de plus de 25 %. % sur la tâche de réponse aux questions audio et vidéo impliquant la parole humaine. Une amélioration absolue de la précision de plus de 30 % a été obtenue. De plus, Video-SALMONN démontre d'excellentes capacités de compréhension vidéo et de raisonnement sur des tâches sans précédent pour d'autres av-LLM.
Le cœur de video-SALMONN est la structure Q-Former causale multi-résolution (MRC), qui aligne les fonctionnalités d'entrée audio et vidéo synchronisées et l'espace de représentation de texte sur trois échelles de temps différentes pour répondre à la dépendance des différentes tâches sur les différents besoins en éléments vidéo. . De plus, afin de renforcer la relation causale temporelle entre des images vidéo consécutives, une structure causale d'auto-attention avec un masque causal spécial est incluse dans MRC Q-Former.
La proposition de Vidéo-SALMONN apporte non seulement de nouveaux outils de recherche à la communauté universitaire, mais offre également de larges possibilités d'applications pratiques. Cela rend l'interaction entre la technologie et les humains plus naturelle et intuitive, réduisant ainsi la difficulté pour les utilisateurs, en particulier les enfants et les personnes âgées, d'apprendre à utiliser la technologie. Dans le même temps, cela pourrait également améliorer l’accessibilité à la technologie, y compris pour les personnes handicapées.
La proposition de vidéo-SALMONN constitue une étape importante vers la réalisation de l’intelligence artificielle générale (AGI). En intégrant l'entrée vocale ainsi que l'entrée audio et visuelle non vocale existante, ces modèles acquerront une compréhension globale des interactions et des environnements humains, leur permettant d'être appliqués à un plus large éventail de domaines.
Le développement de cette technologie aura sans aucun doute un impact profond sur l'analyse du contenu vidéo, les applications éducatives et l'amélioration de la qualité de vie des gens. À mesure que la technologie continue de progresser, nous avons des raisons de croire que l’IA du futur sera plus intelligente et plus proche des besoins humains.
Adresse papier : https://arxiv.org/html/2406.15704v1
Les progrès révolutionnaires de la technologie vidéo-SALMONN indiquent que l'intelligence artificielle a franchi une nouvelle étape dans le domaine de la compréhension vidéo et que ses vastes perspectives d'application méritent d'être attendues. À l’avenir, le développement continu de technologies similaires favorisera davantage l’intégration profonde de l’intelligence artificielle et de la société humaine.