Tim peneliti Universitas Washington meluncurkan model pelacakan visual baru SAMURAI, yang didasarkan pada SAM2 dan bertujuan untuk mengatasi tantangan pelacakan visual dalam pemandangan yang kompleks, terutama pelacakan objek yang bergerak cepat dan menutup sendiri. SAMURAI secara signifikan meningkatkan kemampuan prediksi gerakan objek dan akurasi pemilihan topeng dengan memperkenalkan isyarat gerakan temporal dan mekanisme pemilihan memori sadar gerakan, mencapai pelacakan yang kuat dan akurat tanpa pelatihan ulang dan bekerja dengan baik pada beberapa kumpulan data benchmark.
Baru-baru ini, tim peneliti dari Universitas Washington merilis model pelacakan visual baru yang disebut SAMURAI. Model ini didasarkan pada Segment Anything Model2 (SAM2) dan dirancang untuk memecahkan tantangan yang dihadapi dalam pelacakan objek visual dalam pemandangan yang kompleks, terutama ketika berhadapan dengan objek yang bergerak cepat dan menutup sendiri.
SAM2 bekerja dengan baik dalam tugas segmentasi objek, namun memiliki beberapa keterbatasan dalam pelacakan visual. Misalnya, dalam adegan yang ramai, menghafal jendela tetap gagal memperhitungkan kualitas memori yang dipilih, yang dapat menyebabkan kesalahan menyebar ke seluruh rangkaian video.
Untuk mengatasi masalah ini, tim peneliti mengusulkan SAMURAI, yang secara signifikan meningkatkan kemampuan prediksi gerakan objek dan keakuratan pemilihan topeng dengan memperkenalkan isyarat gerakan temporal dan mekanisme pemilihan memori persepsi gerakan. Inovasi ini memungkinkan SAMURAI mencapai pelacakan yang kuat dan akurat tanpa memerlukan pelatihan ulang atau penyesuaian.
Dalam hal pengoperasian real-time, SAMURAI menunjukkan performa zero-shot yang kuat, yang berarti model tetap dapat berperforma baik tanpa dilatih pada kumpulan data tertentu.
Melalui evaluasi, tim peneliti menemukan bahwa tingkat keberhasilan dan akurasi SAMURAI pada beberapa kumpulan data tolok ukur telah meningkat secara signifikan. Pada kumpulan data LaSOT-ext, SAMURAI mencapai peningkatan AUC sebesar 7,1%, sedangkan pada kumpulan data GOT-10k mencapai peningkatan AO sebesar 3,5%. Selain itu, dibandingkan dengan metode yang diawasi sepenuhnya, SAMURAI memiliki kinerja yang sama kompetitifnya pada kumpulan data LaSOT, menunjukkan kekokohan dan potensi penerapannya yang luas dalam skenario pelacakan yang kompleks.
Tim peneliti menyatakan bahwa keberhasilan SAMURAI meletakkan dasar bagi penerapan teknologi pelacakan visual di masa depan dalam lingkungan yang lebih kompleks dan dinamis. Mereka berharap inovasi ini dapat mendorong perkembangan bidang pelacakan visual, memenuhi kebutuhan aplikasi real-time, dan memberikan kemampuan pengenalan visual yang lebih kuat untuk berbagai perangkat pintar.
Pintu masuk proyek: https://yangchris11.github.io/samurai/
Menyorot:
SAMURAI adalah peningkatan inovatif pada model SAM2, yang bertujuan untuk meningkatkan kemampuan pelacakan objek visual dalam pemandangan yang kompleks.
Dengan memperkenalkan mekanisme memori sadar gerakan, SAMURAI mampu memprediksi gerakan objek secara akurat dan mengoptimalkan pemilihan topeng, menghindari penyebaran kesalahan.
Pada beberapa kumpulan data benchmark, SAMURAI menunjukkan kinerja zero-shot yang kuat, yang secara signifikan meningkatkan tingkat keberhasilan dan akurasi pelacakan.
Kemunculan model SAMURAI menandai kemajuan signifikan dalam teknologi pelacakan visual. Akurasi dan ketahanannya yang tinggi dalam pemandangan yang kompleks memberikan dukungan kuat untuk peningkatan kemampuan pengenalan visual pada perangkat pintar masa depan .