ในช่วงไม่กี่ปีที่ผ่านมา การเรียนรู้เชิงลึกมีความก้าวหน้าอย่างมากในด้านการจับคู่รูปภาพ แต่ภาพรวมของโมเดลยังคงเป็นความท้าทาย เพื่อที่จะแก้ไขปัญหานี้ นักวิจัยจากมหาวิทยาลัยเซียะเหมิน, Intel และ DJI ได้เสนอวิธีการใหม่: GIM (การเรียนรู้ Generalizable Image Matcher จากวิดีโอทางอินเทอร์เน็ต) การวิจัยนี้มีจุดมุ่งหมายเพื่อปรับปรุงความสามารถในการวางลักษณะทั่วไปของแบบจำลองการจับคู่รูปภาพ เพื่อให้สามารถปรับให้เข้ากับสถานการณ์และข้อมูลต่างๆ ได้ดียิ่งขึ้น GIM ใช้วิดีโออินเทอร์เน็ตในการฝึกอบรมและเสนอ Zero-shot Evaling Benchmark (ZEB) เป็นครั้งแรกเพื่อประเมินประสิทธิภาพลักษณะทั่วไปของแบบจำลอง วิธีการนี้คาดว่าจะปรับปรุงการใช้งานจริงและความน่าเชื่อถือของเทคโนโลยีการจับคู่ภาพได้อย่างมีนัยสำคัญ และนำความก้าวหน้าครั้งใหม่มาสู่สาขาคอมพิวเตอร์วิทัศน์
การจับคู่รูปภาพเป็นงานพื้นฐานของคอมพิวเตอร์วิทัศน์ ในช่วงไม่กี่ปีที่ผ่านมา การจับคู่โมเดลที่อาศัยการเรียนรู้เชิงลึกได้รับความนิยมเพิ่มมากขึ้น เพื่อที่จะแก้ปัญหาลักษณะทั่วไปของวิธีการเรียนรู้เชิงลึก นักวิจัยจากมหาวิทยาลัยเซียะเหมิน, Intel และ DJI ได้เสนอ GIM: Learning Generalizable Image Matcher จากวิดีโอทางอินเทอร์เน็ต GIM อนุญาตให้โมเดลที่ตรงกันเรียนรู้ความสามารถทั่วไปที่แข็งแกร่งจากวิดีโอทางอินเทอร์เน็ต และเหมาะสำหรับการฝึกโมเดลที่ตรงกันทั้งหมด ผู้เขียนเสนอเกณฑ์มาตรฐานการประเมิน Zero-shot (ZEB) ฉบับแรก ผลการประเมินแสดงให้เห็นว่า GIM สามารถปรับปรุงประสิทธิภาพลักษณะทั่วไปของแบบจำลองที่ตรงกันได้อย่างมีนัยสำคัญ
การเกิดขึ้นของ GIM ทำให้เกิดแนวคิดใหม่ๆ ในการปรับปรุงความสามารถในการวางลักษณะทั่วไปของโมเดลการจับคู่รูปภาพ และประสิทธิภาพที่ยอดเยี่ยมของ GIM บนเกณฑ์มาตรฐานการประเมิน Zero-shot ยังพิสูจน์ถึงประสิทธิผลอีกด้วย ผลการวิจัยนี้มีความสำคัญอย่างยิ่งในการส่งเสริมความก้าวหน้าและการใช้เทคโนโลยีการจับคู่ภาพ และสมควรได้รับความสนใจและการวิจัยเพิ่มเติม