Pelacakan gerakan tiga dimensi pada video pengambilan gambar tunggal selalu menjadi masalah yang sulit dalam bidang visi komputer, terutama saat mengejar akurasi tingkat piksel dan memproses rangkaian video yang panjang. Metode tradisional menghadapi banyak tantangan dalam hal efisiensi, akurasi, dan ketahanan, serta sulit memenuhi kebutuhan aplikasi praktis. Editor Downcodes akan memperkenalkan kepada Anda hasil penelitian terbaru-DELTA, yang telah membuat terobosan signifikan dalam pelacakan gerak tiga dimensi yang efisien dan akurat.
Terlebih lagi, teknologi yang ada memiliki kebutuhan komputasi yang tinggi dan sulit untuk menjaga efisiensi saat memproses video berdurasi panjang. Pada saat yang sama, pelacakan jangka panjang juga akan dipengaruhi oleh masalah seperti pergerakan kamera dan oklusi objek, yang menyebabkan kesalahan atau kesalahan pelacakan.
Saat ini metode estimasi gerak sequence video mempunyai kelebihan dan kekurangan masing-masing. Teknologi aliran optik menyediakan pelacakan piksel yang padat, tetapi kurang memiliki ketahanan dalam pemandangan yang kompleks, terutama saat memproses rangkaian yang panjang.
Aliran pemandangan merupakan perpanjangan dari aliran optik, yang memperkirakan gerakan tiga dimensi padat melalui data RGB-D atau awan titik, namun masih sulit untuk diterapkan secara efisien dalam rangkaian panjang. Meskipun metode pelacakan titik dapat menangkap lintasan gerak dan menggabungkan perhatian spasial dan temporal untuk mencapai pelacakan yang lebih lancar, metode tersebut masih sulit untuk mencapai pemantauan yang padat karena biaya komputasi yang tinggi. Selain itu, metode pelacakan berbasis rekonstruksi memanfaatkan bidang deformasi untuk memperkirakan gerakan, namun tidak praktis dalam aplikasi waktu nyata.
Baru-baru ini, tim peneliti dari University of Massachusetts Amherst, MIT-IBM Watson Artificial Intelligence Laboratory, dan Snap Inc. mengusulkan DELTA (Dense Efficient Long-range3D Tracking for Any video), yang merupakan metode yang dirancang untuk pelacakan yang efisien setiap piksel dalam ruang tiga dimensi. DELTA dimulai dengan pelacakan resolusi rendah, menggunakan mekanisme perhatian spatiotemporal, dan menerapkan upsampler berbasis perhatian untuk mencapai akurasi resolusi tinggi. Inovasi utamanya mencakup upsampler untuk batas gerakan yang jelas, arsitektur perhatian spasial yang efisien, dan representasi kedalaman logaritmik untuk meningkatkan kinerja pelacakan.
DELTA telah mencapai hasil tingkat lanjut pada kumpulan data CVO dan Kubric3D, meningkat lebih dari 10% pada indikator seperti rata-rata Jaccard (AJ) dan perbedaan posisi rata-rata tiga dimensi (APD3D), dan juga dilakukan pada tolok ukur pelacakan titik 3D seperti TAP-Vid3D dan LSFOdyssey luar biasa. Tidak seperti metode yang ada, DELTA mencapai pelacakan 3D padat dalam skala besar dan berjalan 8 kali lebih cepat dibandingkan metode sebelumnya dengan tetap menjaga akurasi terdepan di industri.
Eksperimen menunjukkan bahwa DELTA bekerja dengan baik dalam tugas pelacakan tiga dimensi, dengan kecepatan dan akurasi melebihi metode sebelumnya. DELTA dilatih pada kumpulan data Kubric, yang berisi lebih dari 5600 video, dan fungsi kerugiannya menggabungkan kehilangan koordinat, kedalaman, dan visibilitas 2D.
Dalam tes benchmark, DELTA mencapai skor tertinggi di CVO dan Kubric3D masing-masing dalam pelacakan 2D jarak jauh dan pelacakan 3D padat, sehingga menyelesaikan tugas jauh lebih cepat dibandingkan metode lainnya. Pilihan desain DELTA, seperti representasi kedalaman logaritmik, perhatian spasial, dan upsampler berbasis perhatian, secara signifikan meningkatkan akurasi dan efisiensinya dalam berbagai skenario pelacakan.
DELTA adalah metode efisien yang mampu melacak setiap piksel dalam bingkai video, mencapai akurasi dan waktu proses lebih cepat dalam pelacakan 3D dan 3D yang padat. Metode ini mungkin menghadapi tantangan pada titik tersumbat jangka panjang, dan performa terbaik terjadi pada video pendek dengan jumlah frame tidak lebih dari beberapa ratus. Akurasi pelacakan 3D DELTA bergantung pada akurasi dan stabilitas temporal dari estimasi kedalaman monokuler yang digunakan. Kemajuan penelitian dalam estimasi kedalaman monokular diharapkan akan semakin meningkatkan kinerja metode ini.
Pintu masuk proyek: https://snap-research.github.io/DELTA/
Secara keseluruhan, DELTA telah membuat kemajuan terobosan dalam pelacakan gerakan tiga dimensi yang efisien, dan akurasi, efisiensi, dan skalabilitasnya yang tinggi menjadikannya memiliki potensi penerapan yang besar di bidang pemrosesan video. Di masa depan, dengan terus berkembangnya teknologi estimasi kedalaman monokuler, kinerja DELTA diharapkan dapat lebih ditingkatkan.