Nos últimos anos, a aprendizagem profunda fez progressos significativos no campo da correspondência de imagens, mas a generalização do modelo continua a ser um desafio. Para resolver este problema, pesquisadores da Universidade de Xiamen, Intel e DJI propuseram um novo método: GIM (Learning Generalizable Image Matcher from Internet Videos). Esta pesquisa visa melhorar a capacidade de generalização dos modelos de correspondência de imagens para que possam se adaptar melhor a diversos cenários e dados. O GIM usa vídeos da Internet para treinamento e propõe pela primeira vez o Zero-shot Evaluation Benchmark (ZEB) para avaliar o desempenho de generalização do modelo. Espera-se que este método melhore significativamente a praticidade e confiabilidade da tecnologia de correspondência de imagens e traga novos avanços no campo da visão computacional.
A correspondência de imagens é uma tarefa básica da visão computacional. Nos últimos anos, os modelos de correspondência baseados em aprendizagem profunda tornaram-se cada vez mais populares. Para resolver o problema da generalização dos métodos de aprendizagem profunda, pesquisadores da Universidade de Xiamen, Intel e DJI propuseram o GIM: Learning Generalizable Image Matcher from Internet Videos. O GIM permite que modelos correspondentes aprendam fortes capacidades de generalização a partir de vídeos da Internet e é adequado para treinar todos os modelos correspondentes. O autor propôs o primeiro Zero-shot Evaluation Benchmark (ZEB). Os resultados da avaliação mostram que o GIM pode melhorar significativamente o desempenho de generalização do modelo de correspondência.
O surgimento do GIM fornece novas idéias para melhorar a capacidade de generalização dos modelos de correspondência de imagens, e seu excelente desempenho no Zero-shot Evaluation Benchmark também comprova sua eficácia. O resultado desta pesquisa é de grande importância na promoção do progresso e da aplicação da tecnologia de correspondência de imagens e merece mais atenção e pesquisa.