Model SAM Meta berkinerja baik di bidang segmentasi gambar, namun memiliki kekurangan dalam pelacakan objek video, terutama dalam adegan kompleks dengan hasil pelacakan yang buruk. Para peneliti di Universitas Washington mengembangkan model SAMURAI dan meningkatkan SAM2, sehingga secara signifikan meningkatkan kinerja pelacakan objek video. SAMURAI dengan cerdik menggabungkan isyarat gerak waktu dan mekanisme pemilihan memori persepsi gerak. Layaknya seorang pejuang yang sangat terampil, SAMURAI dapat secara akurat memprediksi lintasan pergerakan objek dan memilih topeng yang paling andal.
Model SAM "segmen semuanya" yang diluncurkan oleh Meta tidak terkalahkan di bidang segmentasi gambar, namun dalam hal pelacakan objek video, ia agak tidak mampu melakukan apa yang diinginkannya, terutama dalam adegan dengan kerumunan orang, target yang bergerak cepat. , atau bermain petak umpet SAM jadi bingung. Hal ini karena mekanisme memori model SAM seperti "jendela tetap", yang hanya merekam gambar terbaru dan mengabaikan kualitas konten memori, sehingga menyebabkan penyebaran kesalahan dalam video dan sangat mengurangi efek pelacakan.
Untuk mengatasi masalah ini, para peneliti dari Universitas Washington "berpikir keras" dan akhirnya mengembangkan model yang disebut SAMURAI, yang merupakan SAM2 yang "dimodifikasi oleh setan", yang khusus digunakan untuk mencapai pelacakan objek video. Nama SAMURAI sangat mendominasi, dan ia memiliki dua kuas: ia menggabungkan petunjuk gerak waktu dan mekanisme pemilihan memori persepsi gerak yang baru diusulkan. Seperti seorang pejuang yang sangat terampil, ia dapat secara akurat memprediksi lintasan pergerakan objek dan meningkatkan pemilihan Topeng pada akhirnya memungkinkan yang kuat , pelacakan akurat tanpa perlu pelatihan ulang atau penyesuaian.
Rahasia SAMURAI terletak pada dua inovasi besar:
Tip pertama: sistem pemodelan gerak. Sistem ini ibarat "Mata Elang" seorang samurai, mampu memprediksi lokasi objek dalam pemandangan yang kompleks dengan lebih akurat, sehingga mengoptimalkan pemilihan topeng agar SAMURAI tidak tertukar dengan objek serupa.
Langkah kedua: mekanisme pemilihan memori persepsi gerak. SAMURAI meninggalkan mekanisme memori "jendela tetap" SAM2 yang sederhana dan sebagai gantinya mengadopsi sistem penilaian hibrida yang menggabungkan kesamaan topeng mentah, skor objek dan gerak, seperti seorang samurai yang dengan hati-hati memilih senjata, hanya menyimpan informasi sejarah yang paling relevan, sehingga Meningkatkan keandalan pelacakan secara keseluruhan model dan menghindari penyebaran kesalahan.
SAMURAI tidak hanya ahli bela diri yang tinggi, tetapi juga lincah dan mampu beroperasi secara real time. Yang lebih penting lagi, perusahaan ini telah menunjukkan kinerja tanpa sampel yang kuat pada berbagai kumpulan data tolok ukur, yang berarti perusahaan ini dapat beradaptasi dengan berbagai skenario tanpa pelatihan khusus dan menunjukkan kemampuan generalisasi yang kuat.
Dalam uji lapangan, SAMURAI mencapai peningkatan signifikan dibandingkan pelacak yang ada baik dalam tingkat keberhasilan maupun akurasi. Misalnya, pada kumpulan data LaSOText, ia memperoleh perolehan AUC sebesar 7,1%; pada kumpulan data GOT-10k, ia memperoleh perolehan AO sebesar 3,5%. Yang lebih mengejutkan lagi adalah bahwa metode ini bahkan mencapai hasil yang sebanding dengan metode yang diawasi sepenuhnya pada kumpulan data LaSOT, yang sepenuhnya membuktikan kekuatannya dalam skenario pelacakan yang kompleks dan potensi besarnya untuk penerapan praktis dalam lingkungan yang dinamis.
Kesuksesan SAMURAI disebabkan oleh kecerdikannya dalam menggunakan informasi gerak. Para peneliti menggabungkan filter Kalman tradisional dengan SAM2 untuk membantu model memilih masker yang paling andal dari beberapa kandidat masker dengan memprediksi lokasi dan ukuran objek. Selain itu, mereka juga merancang mekanisme pemilihan memori berdasarkan tiga skor (skor kesamaan topeng, skor penampilan objek, dan skor gerak). Hanya ketika ketiga skor tersebut mencapai ambang batas, bingkai akan dipilih. Mekanisme memori selektif ini secara efektif menghindari gangguan dari informasi yang tidak relevan dan meningkatkan akurasi pelacakan.
Kemunculan SAMURAI membawa harapan baru dalam bidang pelacakan objek video. Tidak hanya kinerjanya melampaui pelacak yang ada, tetapi juga tidak memerlukan pelatihan ulang atau penyesuaian dan dapat dengan mudah diterapkan ke berbagai skenario. Saya percaya bahwa di masa depan, SAMURAI akan memainkan peran penting dalam bidang-bidang seperti mengemudi otonom, robot, dan pengawasan video, sehingga memberikan kita pengalaman hidup yang lebih cerdas.
Alamat proyek: https://yangchris11.github.io/samurai/
Alamat makalah: https://arxiv.org/pdf/2411.11922
Secara keseluruhan, model SAMURAI telah membuat kemajuan terobosan di bidang pelacakan objek video, dan kinerjanya yang efisien, akurat, dan tangguh memberikan dukungan teknis yang kuat untuk aplikasi cerdas di masa depan. Mekanisme memori inovatif dan sistem pemodelan geraknya layak untuk dipelajari dan dijadikan referensi mendalam.