Baru-baru ini, tim pembelajaran mendalam Google dan peneliti dari berbagai universitas merilis sistem baru yang disebut "MegaSaM", yang dapat memperkirakan parameter kamera dan peta kedalaman dari video dinamis secara efisien. Hal ini menandai terobosan besar dalam bidang visi komputer dan diharapkan dapat merevolusi teknologi pemrosesan video dan membawa penerapan luas di banyak bidang. Metode tradisional memiliki banyak keterbatasan ketika menangani pemandangan dinamis. Kemunculan MegaSaM secara efektif memecahkan masalah ini dan memberikan solusi baru untuk analisis video dinamis.
Baru-baru ini, tim pembelajaran mendalam Google dan peneliti dari berbagai universitas bersama-sama merilis sistem baru yang disebut "MegaSaM" yang dapat memperkirakan parameter kamera dan peta kedalaman dari video dinamis biasa dengan cepat dan akurat. Munculnya teknologi ini akan membawa lebih banyak kemungkinan pada video yang kita rekam dalam kehidupan sehari-hari, terutama dalam hal menangkap dan menganalisis pemandangan yang dinamis.
Teknologi Struktur Tradisional dari Gerakan (SfM) dan Lokalisasi dan Pemetaan Simultan Monokular (SLAM) biasanya memerlukan masukan video pemandangan statis dan memiliki persyaratan paralaks yang tinggi. Dalam menghadapi adegan dinamis, kinerja metode ini seringkali tidak memuaskan, karena tanpa adanya latar belakang statis, algoritma rentan terhadap kesalahan. Meskipun beberapa metode berbasis jaringan saraf telah mencoba memecahkan masalah ini dalam beberapa tahun terakhir, metode ini sering kali memerlukan overhead komputasi yang besar dan kurangnya stabilitas dalam video dinamis, terutama ketika pergerakan kamera tidak terkontrol atau bidang pandang tidak diketahui.
Kemunculan MegaSaM telah mengubah situasi ini. Tim peneliti secara hati-hati memodifikasi kerangka SLAM deep vision agar dapat beradaptasi dengan pemandangan dinamis yang kompleks, terutama saat jalur kamera tidak dibatasi. Setelah serangkaian percobaan, para peneliti menemukan bahwa MegaSaM secara signifikan mengungguli teknologi terkait sebelumnya dalam hal pose kamera dan estimasi kedalaman, dan juga bekerja dengan baik dalam hal waktu berjalan, bahkan sebanding dengan beberapa metode.
Kekuatan sistem ini memungkinkannya menangani hampir semua video, termasuk rekaman kasual yang mungkin terdapat gerakan intens atau dinamika adegan selama pembuatan film. MegaSaM memproses video sumber dengan kecepatan sekitar 0,7 frame per detik, menunjukkan kinerjanya yang luar biasa. Tim peneliti juga menunjukkan lebih banyak hasil pemrosesan di galeri mereka untuk menunjukkan efektivitasnya dalam aplikasi dunia nyata.
Hasil penelitian ini tidak hanya membawa darah segar ke bidang visi komputer, tetapi juga memberikan kemungkinan baru untuk pemrosesan video dalam kehidupan sehari-hari bagi pengguna. Kami berharap dapat melihat MegaSaM di lebih banyak adegan di masa depan.
Pintu masuk proyek: https://mega-sam.github.io/#demo
Menyorot:
Sistem MegaSaM mampu memperkirakan parameter kamera dan peta kedalaman dengan cepat dan akurat dari video dinamis biasa.
Teknologi ini mengatasi kekurangan metode tradisional dalam pemandangan dinamis dan beradaptasi dengan pemrosesan real-time di lingkungan yang kompleks.
Hasil eksperimen menunjukkan bahwa MegaSaM mengungguli teknologi sebelumnya dalam hal akurasi dan efisiensi operasional.
Kemunculan sistem MegaSaM telah membawa perubahan revolusioner pada pemrosesan video dinamis, dan kinerjanya yang efisien dan akurat memberikan kemungkinan untuk lebih banyak skenario aplikasi di masa depan. Dipercaya bahwa dengan pengembangan dan peningkatan teknologi yang berkelanjutan, MegaSaM akan memainkan peran penting di lebih banyak bidang dan memberikan lebih banyak kemudahan dalam kehidupan masyarakat.