La technologie de positionnement de la cible visuelle AI a toujours fait face à des goulots d'étranglement de précision. Des chercheurs de l'Illinois Tech, du Cisco Research Institute et de l'Université de Floride centrale ont développé le cadre SEGVG pour résoudre ce problème et donner une «vision haute définition» de l'IA. Le noyau de SEGVG est le traitement des détails au niveau des pixels, convertissant les informations de boîte de délimitation en signaux de segmentation, tout comme le port de "lunettes haute définition" pour l'IA, ce qui lui permet d'identifier clairement chaque pixel de la cible.
Dans le domaine de la vision de l'IA, le positionnement cible a toujours été un problème difficile. Les algorithmes traditionnels sont comme "Myopie", qui ne peuvent encercler à peu près la cible avec des "cadres", mais ne peuvent pas voir les détails à l'intérieur. C’est comme lorsque vous décrivez une personne à un ami et que vous parlez de sa hauteur approximative et de sa forme de corps.
Afin de résoudre ce problème, un groupe de bigwigs de l'Université de technologie de l'Illinois, de l'Institut de recherche Cisco et de l'Université de Floride centrale a développé un nouveau cadre de positionnement visuel appelé SEGVG, prétendant que l'IA a fait ses adieux à "myopie" à partir de maintenant!
Le secret de SEGVG est: les détails du "niveau de pixel"! Les algorithmes traditionnels n'utilisent que des informations de boîte de délimitation pour former l'IA, ce qui équivaut à donner uniquement à l'IA une vague. SEGVG convertit les informations de la boîte de délimitation en signaux de segmentation, ce qui équivaut à mettre des "lunettes haute définition" sur l'IA, permettant à l'IA de voir chaque pixel de la cible clairement!
Plus précisément, SEGVG adopte un "encodeur d'encodeur multicouche multicouches". Le nom semble compliqué, mais vous pouvez réellement le comprendre comme un "microscope" super précision contenant des requêtes pour la régression et plusieurs requêtes pour la segmentation. En termes simples, il s'agit d'utiliser différents «lentilles» pour effectuer des tâches de régression et de segmentation des boîtes de délimitation, d'observer à plusieurs reprises la cible et d'extraire des informations plus raffinées.
Ce qui est encore plus étonnant, c'est que SEGVG a également introduit un "module d'alignement Ternal", qui équivaut à équiper AI d'un "traducteur" pour résoudre spécifiquement le problème du "blocage du langage" entre les paramètres de pré-formation de modèle et l'intégration de la requête. Grâce au mécanisme d'attention ternaire, ce "traducteur" peut "traduire" la requête, le texte et les caractéristiques visuelles du même canal, permettant à l'IA de mieux comprendre les informations cibles.
Quel est l'effet de Segvg? a obtenu des résultats révolutionnaires!
En plus du positionnement précis, SEGVG peut également produire le score de confiance prévu par le modèle. Autrement dit, l'IA vous dira à quel point il est confiant de se juger. Ceci est très important dans les applications pratiques.
L'open source de SEGVG est un avantage majeur pour l'ensemble du domaine de la vision de l'IA!
Adresse papier: https://arxiv.org/pdf/2407.03200
Lien de code: https://github.com/weitaikang/segvg/tree/main
L'émergence de SEGVG marque un progrès significatif dans la technologie de positionnement de la cible visuelle de l'IA.