Dalam beberapa tahun terakhir, pembelajaran mendalam telah mencapai kemajuan yang signifikan di bidang pencocokan gambar, namun generalisasi model masih menjadi tantangan. Untuk mengatasi masalah ini, peneliti dari Universitas Xiamen, Intel dan DJI mengusulkan metode baru: GIM (Learning Generalizable Image Matcher from Internet Video). Penelitian ini bertujuan untuk meningkatkan kemampuan generalisasi model pencocokan citra agar dapat lebih beradaptasi dengan berbagai skenario dan data. GIM menggunakan video Internet untuk pelatihan dan mengusulkan Zero-shot Evaluation Benchmark (ZEB) untuk pertama kalinya untuk mengevaluasi kinerja generalisasi model. Metode ini diharapkan dapat meningkatkan kepraktisan dan keandalan teknologi pencocokan gambar secara signifikan serta membawa terobosan baru di bidang computer vision.
Pencocokan gambar adalah tugas dasar computer vision. Dalam beberapa tahun terakhir, model pencocokan berdasarkan pembelajaran mendalam menjadi semakin populer. Untuk memecahkan masalah generalisasi metode pembelajaran mendalam, peneliti dari Universitas Xiamen, Intel, dan DJI mengusulkan GIM: Pembelajaran Generalizable Image Matcher dari Video Internet. GIM memungkinkan model pencocokan mempelajari kemampuan generalisasi yang kuat dari video Internet dan cocok untuk melatih semua model pencocokan. Penulis mengusulkan Zero-shot Evaluation Benchmark (ZEB) yang pertama. Hasil evaluasi menunjukkan bahwa GIM dapat meningkatkan kinerja generalisasi model pencocokan secara signifikan.
Kemunculan GIM memberikan ide-ide baru untuk meningkatkan kemampuan generalisasi model pencocokan gambar, dan kinerjanya yang sangat baik pada Zero-shot Evaluation Benchmark juga membuktikan keefektifannya. Hasil penelitian ini sangat penting dalam mendorong kemajuan dan penerapan teknologi pencocokan gambar dan patut mendapat perhatian dan penelitian lebih lanjut.