Editor Downcodes akan memperkenalkan Anda pada SegVG, kerangka kerja baru yang memecahkan masalah penentuan posisi target di bidang visi AI! Algoritme penentuan posisi target tradisional seperti "miopia". Ia hanya dapat memilih target secara kasar dan tidak dapat menangkap detailnya. SegVG menerobos hambatan ini. Ia menggunakan informasi detail tingkat piksel untuk membuat AI terasa seperti memakai "kacamata definisi tinggi" dan secara akurat mengidentifikasi setiap piksel target. Artikel ini akan memperkenalkan prinsip kerja, kelebihan dan potensi SegVG dalam aplikasi praktis secara sederhana dan mudah dipahami, serta melampirkan link ke makalah dan kode untuk memudahkan kajian dan penelitian mendalam pembaca.
Di bidang visi AI, penentuan posisi target selalu menjadi masalah yang sulit. Algoritma tradisionalnya seperti "miopia", yang hanya dapat mengelilingi target dengan "bingkai", tetapi tidak dapat melihat dengan jelas detail di dalamnya. Ini seperti mendeskripsikan seseorang kepada teman dan hanya memberikan tinggi dan bentuk tubuh secara umum. Sungguh aneh jika teman Anda dapat menemukan orang tersebut!
Untuk mengatasi masalah ini, sekelompok orang besar dari Illinois Institute of Technology, Cisco Research Institute, dan University of Central Florida mengembangkan kerangka kerja pemosisian visual baru yang disebut SegVG, yang mengklaim dapat membuat AI mengucapkan selamat tinggal pada "miopia"!
Rahasia inti SegVG adalah: detail "tingkat piksel"! Algoritme tradisional hanya menggunakan informasi kotak pembatas untuk melatih AI, yang setara dengan hanya menampilkan bayangan buram kepada AI. SegVG mengubah informasi kotak pembatas menjadi sinyal segmentasi, yang setara dengan memasang "kacamata definisi tinggi" pada AI, memungkinkan AI melihat setiap piksel target dengan jelas!
Secara khusus, SegVG mengadopsi "encoder-decoder multi-tugas multi-layer". Namanya terdengar rumit, tetapi Anda sebenarnya dapat menganggapnya sebagai "mikroskop" super canggih yang berisi kueri untuk regresi dan beberapa kueri untuk segmentasi. Sederhananya, "lensa" yang berbeda digunakan untuk melakukan tugas regresi kotak pembatas dan segmentasi, dan target diamati berulang kali untuk mengekstrak informasi yang lebih halus.
Yang lebih hebatnya lagi adalah SegVG juga memperkenalkan "modul penyelarasan terner", yang setara dengan melengkapi AI dengan "penerjemah" untuk secara khusus memecahkan masalah "hambatan bahasa" antara parameter pra-pelatihan model dan penyematan kueri. Melalui mekanisme perhatian terner, "penerjemah" ini dapat "menerjemahkan" pertanyaan, teks, dan fitur visual ke dalam saluran yang sama, sehingga memungkinkan AI untuk lebih memahami informasi target.
Apa efek SegVG? Para ahli melakukan eksperimen pada lima kumpulan data yang umum digunakan dan menemukan bahwa kinerja SegVG mengalahkan banyak algoritma tradisional! Terutama dalam dua "kesulitan" RefCOCO+ dan RefCOCOg yang terkenal "Pada kumpulan data, SegVG telah mencapainya." hasil terobosan!
Selain penentuan posisi yang tepat, SegVG juga dapat menampilkan skor kepercayaan prediksi model. Sederhananya, AI akan memberi tahu Anda seberapa yakinnya ia dalam penilaiannya. Hal ini sangat penting dalam penerapan praktis. Misalnya, jika Anda ingin menggunakan AI untuk mengidentifikasi gambar medis, jika tingkat kepercayaan AI tidak tinggi, Anda perlu meninjaunya secara manual untuk menghindari kesalahan diagnosis.
SegVG open source memberikan manfaat besar bagi seluruh bidang visi AI! Saya yakin akan semakin banyak pengembang dan peneliti yang bergabung dengan kamp SegVG di masa depan untuk bersama-sama mempromosikan pengembangan teknologi visi AI.
Alamat makalah: https://arxiv.org/pdf/2407.03200
Tautan kode: https://github.com/WeitaiKang/SegVG/tree/main
Secara keseluruhan, kemunculan SegVG memberikan ide dan metode baru untuk penentuan posisi target yang tepat di bidang visi AI, dan sumber terbukanya juga menyediakan sumber pembelajaran dan penelitian yang berharga bagi pengembang. Saya percaya bahwa pengembangan SegVG di masa depan akan berdampak besar pada teknologi visi AI dan patut mendapat perhatian terus-menerus!