Editor Downcodes melaporkan: Tim peneliti Universitas Washington merilis model pelacakan visual baru yang disebut SAMURAI, yang didasarkan pada SAM2 dan bertujuan untuk mengatasi tantangan pelacakan visual dalam pemandangan yang kompleks, terutama saat menangani objek yang bergerak cepat dan oklusi diri. SAMURAI secara signifikan meningkatkan kemampuan prediksi gerakan objek dan akurasi pemilihan topeng dengan memperkenalkan isyarat gerakan temporal dan mekanisme pemilihan memori persepsi gerakan, mencapai pelacakan yang kuat dan akurat tanpa pelatihan ulang atau penyesuaian. Performa zero-shot yang kuat memungkinkannya bekerja dengan baik tanpa dilatih pada kumpulan data tertentu.
SAM2 bekerja dengan baik dalam tugas segmentasi objek, namun memiliki beberapa keterbatasan dalam pelacakan visual. Misalnya, dalam adegan yang ramai, menghafal jendela tetap gagal memperhitungkan kualitas memori yang dipilih, yang dapat menyebabkan kesalahan menyebar ke seluruh rangkaian video.
Untuk mengatasi masalah ini, tim peneliti mengusulkan SAMURAI, yang secara signifikan meningkatkan kemampuan prediksi gerakan objek dan keakuratan pemilihan topeng dengan memperkenalkan isyarat gerakan temporal dan mekanisme pemilihan memori persepsi gerakan. Inovasi ini memungkinkan SAMURAI mencapai pelacakan yang kuat dan akurat tanpa memerlukan pelatihan ulang atau penyesuaian.
Dalam hal pengoperasian real-time, SAMURAI menunjukkan performa zero-shot yang kuat, yang berarti model tetap dapat berperforma baik tanpa dilatih pada kumpulan data tertentu.
Melalui evaluasi, tim peneliti menemukan bahwa tingkat keberhasilan dan akurasi SAMURAI pada beberapa kumpulan data tolok ukur telah meningkat secara signifikan. Pada kumpulan data LaSOT-ext, SAMURAI mencapai peningkatan AUC sebesar 7,1%, sedangkan pada kumpulan data GOT-10k mencapai peningkatan AO sebesar 3,5%. Selain itu, dibandingkan dengan metode yang diawasi sepenuhnya, SAMURAI memiliki kinerja yang sama kompetitifnya pada kumpulan data LaSOT, menunjukkan kekokohan dan potensi penerapannya yang luas dalam skenario pelacakan yang kompleks.
Tim peneliti menyatakan bahwa keberhasilan SAMURAI meletakkan dasar bagi penerapan teknologi pelacakan visual di masa depan dalam lingkungan yang lebih kompleks dan dinamis. Mereka berharap inovasi ini dapat mendorong perkembangan bidang pelacakan visual, memenuhi kebutuhan aplikasi real-time, dan memberikan kemampuan pengenalan visual yang lebih kuat untuk berbagai perangkat pintar.
Pintu masuk proyek: https://yangchris11.github.io/samurai/
Kemunculan model SAMURAI telah membawa terobosan baru pada teknologi pelacakan visual, dan efisiensi serta akurasinya dalam pemandangan kompleks sangat mengesankan. Di masa depan, model ini diharapkan dapat digunakan secara luas di berbagai bidang seperti mengemudi otonom dan visi robot, sehingga mendorong pengembangan lebih lanjut teknologi kecerdasan buatan. Editor Downcodes menantikan SAMURAI mencapai hasil yang lebih mengesankan di masa depan!