Le modèle SAM de Meta a bien fonctionné dans le domaine de la segmentation de l'image, mais il est insuffisant dans le suivi des objets vidéo, en particulier dans les scènes complexes. Des chercheurs de l'Université de Washington ont développé le modèle de samouraï pour que cela améliore SAM2, ce qui améliore considérablement les performances du suivi des objets vidéo. Samurai combine intelligemment les indices de mouvement du temps et les mécanismes de sélection de la mémoire de perception de mouvement.
Le modèle "Segmentation de tous" Sam lancé par Meta peut être décrit comme invincible dans le domaine de la segmentation de l'image, mais en ce qui concerne le suivi des objets vidéo, il est un peu insatisfaisant, en particulier dans la scène des foules de personnes, rapidement Mouvement ou jouant des "chats cachés". En effet, le mécanisme de mémoire du modèle SAM est comme une "fenêtre fixe", qui ne se soucie que de l'écran récent et ignore la qualité du contenu mémoire, ce qui conduit à des erreurs dans la vidéo et l'effet de suivi est considérablement réduit.
Afin de résoudre ce problème, les chercheurs de l'Université de Washington "ont pensé dur" et ont finalement développé un modèle appelé Samurai, qui a fait "Devil Reform" pour SAM2, qui était spécialement utilisé pour suivre les objets vidéo. Le nom de Samurai est très dominant, et il a deux pinceaux: il combine l'indice de mouvement du temps et le mécanisme de choix de mémoire de perception sportif nouvellement proposé, tout comme un guerrier des arts martiaux, qui peut prédire avec précision la trajectoire de mouvement de l'objet et améliorer l'amélioration du mouvement de l'objet, et améliorez la sélection de la couverture d'amélioration, et éventuellement obtenir un suivi stable et précis sans re-formation ni tarif fin.
Le secret des samouraïs réside dans les deux innovations:
Première décision: système de modélisation sportive. Ce système est comme «l'œil d'aigle» des samouraïs, qui peut prédire plus précisément l'emplacement des objets dans la scène complexe, optimisant ainsi le choix du masque, afin que les samouraïs ne soient pas confus par des objets similaires.
Deuxième astuce: mécanisme de sélection de la mémoire de la perception sportive. Samurai a abandonné le simple mécanisme de mémoire "fenêtre fixe" de SAM2, et a plutôt adopté un système de notation hybride, combiné à la similitude d'origine du masque, aux objets et aux scores de mouvement, tout comme le guerrier soigneusement sélectionné, ne conserve que les informations historiques les plus liées, donc donc Pour améliorer ainsi la fiabilité globale du suivi du modèle et éviter les erreurs.
Les samouraïs sont non seulement forts dans les arts martiaux, mais aussi agiles et peuvent fonctionner en temps réel. Plus important encore, il montre une forte performance zéro-échantillon sur divers ensembles de données de référence, ce qui signifie qu'il peut s'adapter à diverses scènes sans formation spéciale et présenter des capacités de généralisation solides.
Dans les tests de combat réels, Samurai s'est considérablement amélioré en termes de taux de réussite et de précision par rapport aux trackers existants. Par exemple, sur l'ensemble de données Lasotext, il obtient un gain AUC de 7,1%; Ce qui est encore plus surprenant, c'est qu'il a obtenu le résultat de l'ensemble de données LASOT comparable à la méthode de supervision complète, ce qui prouve pleinement sa puissante force dans la scène de suivi complexe et le grand potentiel d'application pratique dans l'environnement dynamique.
Le succès de Samurai est dû à son utilisation intelligente des informations sportives. Les chercheurs combinent le filtre Carman traditionnel avec SAM2. De plus, ils ont également conçu un mécanisme de sélection de mémoire basé sur trois scores (scores de similitude de masque, scores d'objets et scores de mouvement). Ce mécanisme de mémoire sélectif évite efficacement l'interférence des informations non pertinentes et améliore la précision du suivi.
L'émergence de samouraïs a apporté un nouvel espoir dans le domaine du suivi des objets vidéo. Il dépasse non seulement le tracker existant en performance, mais n'a pas non plus besoin de re-transfert ou de trépillage fin, qui peut être facilement appliqué à divers scénarios. On pense qu'à l'avenir, Samurai jouera un rôle important dans la conduite autonome, la robotique, la surveillance vidéo et d'autres domaines pour nous apporter une expérience de vie plus intelligente.
Adresse du projet: https://yangchris11.github.io/samurai/
Adresse de thèse: https: //arxiv.org/pdf/2411.11922
Dans l'ensemble, le modèle Samurai a fait des percées dans le domaine du suivi des objets vidéo. Son mécanisme de mémoire innovant et son système de modélisation sportive sont dignes de rechercher et de référence en profondeur.