Le domaine de l’intelligence artificielle s’est engagé à permettre aux machines de comprendre le monde physique complexe. Les avancées dans ce domaine sont cruciales pour de nombreux domaines. Récemment, des équipes de recherche de l'Université Renmin de Chine, de l'Université des postes et télécommunications de Pékin, du Shanghai AI Lab et d'autres institutions ont développé la technologie Ref-AVS, offrant une nouvelle solution à ce problème. La technologie Ref-AVS intègre plusieurs informations modales telles que la segmentation d'objets vidéo, la segmentation de référence d'objets vidéo et la segmentation audiovisuelle grâce à une méthode de fusion multimodale intelligente, permettant au système d'IA de comprendre plus précisément les instructions en langage naturel et d'effectuer des audio- tâches visuelles. Le positionnement précis des objets cibles dans la scène dépasse les limites précédentes de l’IA en matière de compréhension multimodale.
Dans le domaine de l’intelligence artificielle, amener les machines à comprendre le monde physique complexe comme les humains a toujours été un défi majeur. Récemment, une équipe de recherche composée de l'Université Renmin de Chine, de l'Université des postes et télécommunications de Pékin, du Shanghai AI Lab et d'autres institutions a proposé une technologie révolutionnaire - Ref-AVS, qui apporte un nouvel espoir pour résoudre ce problème.
Le cœur de la technologie Ref-AVS réside dans sa méthode de fusion multimodale unique. Il intègre intelligemment plusieurs informations modales telles que la segmentation d'objets vidéo (VOS), la segmentation de référence d'objets vidéo (Ref-VOS) et la segmentation audiovisuelle (AVS). Cette fusion innovante permet au système d'IA non seulement de traiter les objets qui émettent des sons, mais également d'identifier les objets non sonores mais tout aussi importants dans la scène. Cette avancée permet à l’IA de comprendre plus précisément les instructions décrites par les utilisateurs via le langage naturel et de localiser avec précision des objets spécifiques dans des scènes audiovisuelles complexes.
Pour soutenir la recherche et la vérification de la technologie Ref-AVS, l’équipe de recherche a construit un ensemble de données à grande échelle appelé Ref-AVS Bench. Cet ensemble de données contient 40 020 images vidéo couvrant 6 888 objets et 20 261 expressions de référence. Chaque image vidéo est accompagnée d'une annotation détaillée audio et au niveau des pixels correspondante. Cet ensemble de données riche et diversifié fournit une base solide pour la recherche multimodale et ouvre de nouvelles possibilités pour de futures recherches dans des domaines connexes.
Dans une série d’expériences quantitatives et qualitatives rigoureuses, la technologie Ref-AVS a démontré d’excellentes performances. Surtout sur le sous-ensemble Seen, Ref-AVS surpasse les autres méthodes existantes, prouvant pleinement ses puissantes capacités de segmentation. Ce qui est plus remarquable, c'est que les résultats des tests sur les sous-ensembles invisibles et nuls vérifient en outre l'excellente capacité de généralisation et la robustesse de la technologie Ref-AVS aux références nulles, qui sont cruciales pour les scénarios d'application pratiques.
Le succès de la technologie Ref-AVS a non seulement attiré l’attention du monde universitaire, mais a également ouvert de nouvelles voies pour de futures applications pratiques. Nous pouvons prévoir que cette technologie jouera un rôle important dans de nombreux domaines tels que l’analyse vidéo, le traitement d’images médicales, la conduite autonome et la navigation des robots. Par exemple, dans le domaine médical, Ref-AVS peut aider les médecins à interpréter plus précisément des images médicales complexes ; dans le domaine de la conduite autonome, il peut améliorer la perception de l'environnement du véhicule en robotique, il peut permettre aux robots de mieux comprendre et exécuter des instructions verbales humaines.
Les résultats de cette recherche ont été présentés à l'ECCV2024, et des articles pertinents et des informations sur les projets ont également été rendus publics, fournissant ainsi de précieuses ressources d'apprentissage et d'exploration aux chercheurs et développeurs du monde entier intéressés par ce domaine. Cette attitude d’ouverture et de partage reflète non seulement l’esprit académique de l’équipe de recherche scientifique chinoise, mais favorisera également le développement rapide de l’ensemble du domaine de l’IA.
L’émergence de la technologie Ref-AVS marque une étape importante dans la compréhension multimodale de l’intelligence artificielle. Il démontre non seulement les capacités d’innovation de l’équipe de recherche scientifique chinoise dans le domaine de l’IA, mais dresse également un plan plus intelligent et plus naturel pour l’avenir de l’interaction homme-machine. À mesure que cette technologie continue d’être améliorée et appliquée, nous avons des raisons de nous attendre à ce que les futurs systèmes d’IA soient capables de mieux comprendre et de s’adapter au monde complexe des humains et d’apporter des changements révolutionnaires dans tous les domaines de la vie.
Adresse papier : https://arxiv.org/abs/2407.10957
Page d'accueil du projet :
https://gewu-lab.github.io/Ref-AVS/
En bref, l’avènement de la technologie Ref-AVS a apporté de nouvelles avancées dans le domaine de la compréhension multimodale de l’intelligence artificielle. Ses performances puissantes et ses vastes perspectives d’application méritent d’être attendues. Cette technologie favorisera le développement de l’intelligence artificielle vers des interactions plus intelligentes et plus naturelles, apportant plus de confort à la société humaine.