Model SAM Meta berkinerja baik di bidang segmentasi gambar, namun menghadapi tantangan dalam pelacakan objek video. Khususnya dalam adegan yang kompleks, mekanisme memori "jendela tetap" menyebabkan penyebaran kesalahan dan hasil pelacakan yang buruk. Untuk mencapai tujuan ini, para peneliti di Universitas Washington mengembangkan model SAMURAI dan meningkatkan SAM2, yang secara signifikan meningkatkan akurasi dan stabilitas pelacakan objek video.
Model SAM "segmen semuanya" yang diluncurkan oleh Meta tidak terkalahkan di bidang segmentasi gambar, namun dalam hal pelacakan objek video, ia agak tidak mampu melakukan apa yang diinginkannya, terutama dalam adegan dengan kerumunan orang, target yang bergerak cepat. , atau bermain petak umpet SAM jadi bingung. Hal ini karena mekanisme memori model SAM seperti "jendela tetap", yang hanya merekam gambar terbaru dan mengabaikan kualitas konten memori, sehingga menyebabkan penyebaran kesalahan dalam video dan sangat mengurangi efek pelacakan.
Untuk mengatasi masalah ini, para peneliti dari Universitas Washington "berpikir keras" dan akhirnya mengembangkan model yang disebut SAMURAI, yang merupakan SAM2 yang "dimodifikasi oleh setan", yang khusus digunakan untuk mencapai pelacakan objek video. Nama SAMURAI sangat mendominasi, dan ia memiliki dua kuas: ia menggabungkan petunjuk gerak waktu dan mekanisme pemilihan memori persepsi gerak yang baru diusulkan. Seperti seorang pejuang yang sangat terampil, ia dapat secara akurat memprediksi lintasan pergerakan objek dan meningkatkan pemilihan Topeng pada akhirnya memungkinkan yang kuat , pelacakan akurat tanpa perlu pelatihan ulang atau penyesuaian.
Rahasia SAMURAI terletak pada dua inovasi besar:
Tip pertama: sistem pemodelan gerak. Sistem ini ibarat "Mata Elang" seorang samurai, mampu memprediksi lokasi objek dalam pemandangan yang kompleks dengan lebih akurat, sehingga mengoptimalkan pemilihan topeng agar SAMURAI tidak tertukar dengan objek serupa.
Langkah kedua: mekanisme pemilihan memori persepsi gerak. SAMURAI meninggalkan mekanisme memori "jendela tetap" SAM2 yang sederhana dan sebagai gantinya mengadopsi sistem penilaian hibrida yang menggabungkan kesamaan topeng mentah, skor objek dan gerak, seperti seorang samurai yang dengan hati-hati memilih senjata, hanya menyimpan informasi sejarah yang paling relevan, sehingga Meningkatkan keandalan pelacakan secara keseluruhan model dan menghindari penyebaran kesalahan.
SAMURAI tidak hanya ahli bela diri yang tinggi, tetapi juga lincah dan mampu beroperasi secara real time. Yang lebih penting lagi, perusahaan ini telah menunjukkan kinerja tanpa sampel yang kuat pada berbagai kumpulan data tolok ukur, yang berarti perusahaan ini dapat beradaptasi dengan berbagai skenario tanpa pelatihan khusus dan menunjukkan kemampuan generalisasi yang kuat.
Dalam uji lapangan, SAMURAI mencapai peningkatan signifikan dibandingkan pelacak yang ada baik dalam tingkat keberhasilan maupun akurasi. Misalnya, pada kumpulan data LaSOText, ia memperoleh perolehan AUC sebesar 7,1%; pada kumpulan data GOT-10k, ia memperoleh perolehan AO sebesar 3,5%. Yang lebih mengejutkan lagi adalah bahwa metode ini bahkan mencapai hasil yang sebanding dengan metode yang diawasi sepenuhnya pada kumpulan data LaSOT, yang sepenuhnya membuktikan kekuatannya dalam skenario pelacakan yang kompleks dan potensi besarnya untuk penerapan praktis dalam lingkungan yang dinamis.
Kesuksesan SAMURAI disebabkan oleh kecerdikannya dalam menggunakan informasi gerak. Para peneliti menggabungkan filter Kalman tradisional dengan SAM2 untuk membantu model memilih masker yang paling andal dari beberapa kandidat masker dengan memprediksi lokasi dan ukuran objek. Selain itu, mereka juga merancang mekanisme pemilihan memori berdasarkan tiga skor (skor kesamaan topeng, skor penampilan objek, dan skor gerak). Hanya ketika ketiga skor tersebut mencapai ambang batas, bingkai akan dipilih. Mekanisme memori selektif ini secara efektif menghindari gangguan dari informasi yang tidak relevan dan meningkatkan akurasi pelacakan.
Kemunculan SAMURAI membawa harapan baru dalam bidang pelacakan objek video. Tidak hanya kinerjanya melampaui pelacak yang ada, tetapi juga tidak memerlukan pelatihan ulang atau penyesuaian dan dapat dengan mudah diterapkan ke berbagai skenario. Saya percaya bahwa di masa depan, SAMURAI akan memainkan peran penting dalam bidang-bidang seperti mengemudi otonom, robot, dan pengawasan video, sehingga memberikan kita pengalaman hidup yang lebih cerdas.
Alamat proyek: https://yangchris11.github.io/samurai/
Alamat makalah: https://arxiv.org/pdf/2411.11922
Editor Downcodes menyimpulkan: Munculnya model SAMURAI telah membawa kemajuan signifikan pada teknologi pelacakan target video. Mekanisme memori inovatif dan sistem pemodelan geraknya secara efektif mengatasi kekurangan metode tradisional, dan prospek penerapannya di masa depan sangat luas.