Le modèle SAM de Meta fonctionne bien dans le domaine de la segmentation d’images, mais est confronté à des défis en matière de suivi d’objets vidéo. Surtout dans les scènes complexes, son mécanisme de mémoire à « fenêtre fixe » entraîne une propagation d'erreurs et de mauvais résultats de suivi. À cette fin, des chercheurs de l’Université de Washington ont développé le modèle SAMURAI et amélioré SAM2, améliorant ainsi considérablement la précision et la stabilité du suivi vidéo des objets.
Le modèle « tout segmenter » SAM lancé par Meta est invincible dans le domaine de la segmentation d'images, mais lorsqu'il s'agit de suivi d'objets vidéo, il est un peu incapable de faire ce qu'il veut, surtout dans les scènes avec des foules de personnes, des cibles en mouvement rapide , ou jouer à "cache-cache". SAM devient confus. En effet, le mécanisme de mémoire du modèle SAM est comme une « fenêtre fixe », qui enregistre uniquement les images les plus récentes et ignore la qualité du contenu de la mémoire, ce qui entraîne une propagation d'erreurs dans la vidéo et réduit considérablement l'effet de suivi.
Afin de résoudre ce problème, des chercheurs de l'Université de Washington ont "réfléchi" et ont finalement développé un modèle appelé SAMURAI, qui a "modifié diaboliquement" SAM2, spécifiquement utilisé pour réaliser le suivi vidéo d'objets. Le nom de SAMURAI est très dominateur, et il a deux pinceaux : il combine des indices de mouvement temporel et un nouveau mécanisme de sélection de mémoire de perception de mouvement. Comme un guerrier hautement qualifié, il peut prédire avec précision la trajectoire de mouvement des objets et améliorer la sélection de masque, ce qui permet finalement d'être robuste. , un suivi précis sans avoir besoin de recyclage ou de réglage fin.
Le secret de SAMURAI réside dans deux innovations majeures :
Le premier conseil : un système de modélisation de mouvement. Ce système est comme « l'œil d'aigle » d'un samouraï, capable de prédire avec plus de précision l'emplacement d'objets dans des scènes complexes, optimisant ainsi la sélection des masques afin que SAMOURAÏ ne soit pas dérouté par des objets similaires.
Le deuxième mouvement : mécanisme de sélection de la mémoire de perception du mouvement. SAMURAI abandonne le simple mécanisme de mémoire à « fenêtre fixe » de SAM2 et adopte à la place un système de notation hybride qui combine la similarité brute du masque, les scores d'objet et de mouvement, tout comme un samouraï sélectionnant soigneusement les armes, ne conservant que les informations historiques les plus pertinentes, améliorant ainsi la fiabilité globale du suivi. du modèle et éviter la propagation des erreurs.
SAMURAI est non seulement hautement qualifié dans les arts martiaux, mais également agile et capable d'opérer en temps réel. Plus important encore, il a démontré de solides performances sans échantillon sur divers ensembles de données de référence, ce qui signifie qu'il peut s'adapter à divers scénarios sans formation spéciale et démontre de fortes capacités de généralisation.
Lors des tests sur le terrain, SAMURAI a réalisé des améliorations significatives par rapport aux trackers existants en termes de taux de réussite et de précision. Par exemple, sur le jeu de données LaSOText, il obtient un gain d'AUC de 7,1 % ; sur le jeu de données GOT-10k, il obtient un gain d'AO de 3,5 % ; Ce qui est encore plus surprenant, c'est qu'elle obtient même des résultats comparables aux méthodes entièrement supervisées sur l'ensemble de données LaSOT, ce qui prouve pleinement sa puissance dans des scénarios de suivi complexes et son grand potentiel d'application pratique dans des environnements dynamiques.
Le succès de SAMURAI est dû à son utilisation intelligente des informations de mouvement. Les chercheurs ont combiné un filtre de Kalman traditionnel avec SAM2 pour aider le modèle à sélectionner le masque le plus fiable parmi plusieurs masques candidats en prédisant l'emplacement et la taille des objets. De plus, ils ont également conçu un mécanisme de sélection de mémoire basé sur trois scores (score de similarité du masque, score d’apparence de l’objet et score de mouvement). Ce n’est que lorsque ces trois scores atteignent le seuil que la banque de mémoire sera sélectionnée. Ce mécanisme de mémoire sélective évite efficacement les interférences provenant d'informations non pertinentes et améliore la précision du suivi.
L'émergence de SAMURAI apporte un nouvel espoir dans le domaine du suivi vidéo d'objets. Non seulement il surpasse les trackers existants en termes de performances, mais il ne nécessite également aucun recyclage ni réglage fin et peut être facilement appliqué à divers scénarios. Je crois qu'à l'avenir, SAMURAI jouera un rôle important dans des domaines tels que la conduite autonome, les robots et la vidéosurveillance, nous apportant une expérience de vie plus intelligente.
Adresse du projet : https://yangchris11.github.io/samurai/
Adresse papier : https://arxiv.org/pdf/2411.11922
L'éditeur de Downcodes a conclu : L'émergence du modèle SAMURAI a apporté des progrès significatifs à la technologie de suivi vidéo de cibles. Son mécanisme de mémoire innovant et son système de modélisation de mouvement résolvent efficacement les lacunes des méthodes traditionnelles, et ses perspectives d'application futures sont larges.