Laporan editor Downcodes: Tim peneliti dari Universitas Teknik Praha di Republik Ceko dan Institut Teknologi Federal Swiss di Zurich baru-baru ini membuat terobosan besar. Mereka mengembangkan metode inovatif yang disebut WildGaussians, yang secara signifikan meningkatkan kinerja sputtering Gaussian 3D ( Teknologi 3DGS) dalam memproses struktur tidak terstruktur. Terobosan teknologi ini memungkinkan tercapainya rekonstruksi 3D berkualitas tinggi menggunakan kumpulan gambar tidak terstruktur seperti foto landmark yang dikumpulkan di Internet, menghadirkan kemungkinan baru di bidang seperti realitas virtual, realitas tertambah, dan visi komputer. WildGaussians terutama memecahkan masalah seperti perubahan tampilan dan iluminasi serta oklusi objek bergerak melalui dua komponen inti: pemodelan tampilan dan pemodelan ketidakpastian, dan bekerja pada kumpulan data yang menantang seperti NeRF On-the-go dan kumpulan data pariwisata foto. kecepatan rendering waktu juga mencapai 117 gambar per detik yang mengesankan.
Sebuah tim peneliti dari Universitas Teknik Praha di Republik Ceko dan ETH Zurich di Swiss baru-baru ini memperkenalkan metode inovatif yang disebut WildGaussians, yang secara signifikan meningkatkan kemampuan teknologi 3D Gaussian sputtering (3DGS) saat memproses kumpulan gambar tidak terstruktur. Terobosan ini memungkinkan tercapainya rekonstruksi 3D berkualitas tinggi dari kumpulan gambar tidak terstruktur seperti foto landmark yang dikumpulkan dari Internet.
WildGaussians pada dasarnya memecahkan dua tantangan utama: perubahan tampilan dan pencahayaan, serta masalah oklusi objek bergerak. Tim peneliti mengatasi tantangan ini dengan mengembangkan dua komponen inti: pemodelan penampilan dan pemodelan ketidakpastian.
Pemodelan tampilan memungkinkan sistem memproses gambar yang diambil dalam kondisi berbeda, seperti waktu atau cuaca berbeda. Metode ini menggunakan penyematan yang dapat dilatih untuk setiap gambar pelatihan dan distribusi Gaussian, dan menyesuaikan warna distribusi Gaussian ke kondisi pengambilan gambar yang sesuai melalui jaringan saraf (MLP).
Pemodelan ketidakpastian membantu mengidentifikasi dan mengabaikan oklusi seperti pejalan kaki atau mobil selama pelatihan. Para peneliti menggunakan fitur DINOv2 yang telah dilatih sebelumnya untuk meningkatkan kemampuan adaptasi sistem terhadap perubahan lanskap.
Dalam hal kinerja, WildGaussians mengungguli metode canggih yang ada pada kumpulan data yang menantang seperti kumpulan data NeRF On-the-go dan Photo Tourism. Pada saat yang sama, metode ini mencapai kecepatan rendering real-time sebesar 117 gambar per detik pada GPU Nvidia RTX4090.
Meskipun WildGaussians telah membuat kemajuan signifikan dalam bidang rekonstruksi 3D, para peneliti mengakui bahwa metode ini masih memiliki beberapa keterbatasan, seperti representasi sorotan spekular pada objek. Mereka berencana untuk lebih meningkatkan pendekatan ini di masa depan dengan memasukkan teknik seperti pemodelan difusi.
Penelitian ini membuka kemungkinan baru untuk rekonstruksi 3D yang kuat, serbaguna, dan fotorealistik dari data berisik yang dihasilkan pengguna, yang diharapkan memiliki dampak besar di berbagai bidang seperti realitas virtual, realitas tertambah, dan visi komputer.
Kemunculan WildGaussians menandai lompatan penting dalam teknologi rekonstruksi 3D, dan efisiensi serta akurasinya yang tinggi memberikan landasan yang kokoh untuk banyak aplikasi di masa depan. Editor Downcodes berharap teknologi ini dapat lebih ditingkatkan di masa depan untuk memberikan kita pengalaman digital yang lebih realistis dan mendalam.