Ces dernières années, l’apprentissage profond a fait des progrès significatifs dans le domaine de la mise en correspondance d’images, mais la généralisation des modèles reste un défi. Afin de résoudre ce problème, des chercheurs de l'Université de Xiamen, Intel et DJI ont proposé une nouvelle méthode : GIM (Learning Generalizing Image Matcher from Internet Videos). Cette recherche vise à améliorer la capacité de généralisation des modèles d'appariement d'images afin qu'ils puissent mieux s'adapter à divers scénarios et données. GIM utilise des vidéos Internet pour la formation et propose pour la première fois le Zero-shot Evaluation Benchmark (ZEB) pour évaluer les performances de généralisation du modèle. Cette méthode devrait améliorer considérablement l’aspect pratique et la fiabilité de la technologie de correspondance d’images et apporter de nouvelles avancées dans le domaine de la vision par ordinateur.
La mise en correspondance d'images est une tâche fondamentale de la vision par ordinateur. Ces dernières années, les modèles de mise en correspondance basés sur l'apprentissage profond sont devenus de plus en plus populaires. Afin de résoudre le problème de la généralisation des méthodes d'apprentissage profond, des chercheurs de l'Université de Xiamen, d'Intel et de DJI ont proposé GIM : Learning Generalizing Image Matcher from Internet Videos. GIM permet aux modèles correspondants d'acquérir de fortes capacités de généralisation à partir de vidéos Internet et convient à la formation de tous les modèles correspondants. L'auteur a proposé le premier Zero-shot Evaluation Benchmark (ZEB). Les résultats de l'évaluation montrent que GIM peut améliorer considérablement les performances de généralisation du modèle d'appariement.
L'émergence de GIM fournit de nouvelles idées pour améliorer la capacité de généralisation des modèles de correspondance d'images, et ses excellentes performances sur le benchmark d'évaluation Zero-shot prouvent également son efficacité. Ce résultat de recherche est d’une grande importance pour promouvoir le progrès et l’application de la technologie de correspondance d’images et mérite une attention et des recherches plus approfondies.