Penelitian terbaru yang dilakukan oleh tim Profesor Li Feifei menunjukkan bahwa model besar multi-modal telah membuat kemajuan terobosan dalam kecerdasan spasial, menunjukkan kemampuan untuk mengingat, mengingat ruang, dan membangun model dunia lokal. Penelitian ini menggunakan alat evaluasi VSI-Bench untuk menguji beberapa model besar berdasarkan skenario video nyata. Hasilnya menunjukkan bahwa beberapa model telah mencapai atau mendekati level manusia dalam tugas penalaran spasial, dan menemukan bahwa bantuan peta kognitif dapat meningkatkan model spasial secara signifikan kemampuan pemahaman. Penelitian ini tidak hanya mengungkap kemajuan terkini AI dalam bidang persepsi spasial, namun juga menandai meluasnya penerapan AI dalam navigasi, interaksi robot, dan bidang lainnya di masa depan.
VSI-Bench yang dikembangkan oleh tim peneliti berisi lebih dari 5.000 pasangan tanya jawab berkualitas tinggi, yang mencakup berbagai skenario dan wilayah geografis, memberikan tolok ukur yang dapat diandalkan untuk mengevaluasi kecerdasan visual spasial. Hasil penelitian ini sangat penting dalam mendorong pengembangan kecerdasan umum buatan (AGI), dan juga memberikan landasan teknis yang kuat bagi World Labs, sebuah perusahaan yang didirikan oleh Profesor Li Feifei yang berfokus pada pengembangan model AI kecerdasan spasial. Keberhasilan perusahaan juga menegaskan besarnya potensi dan prospek pasar AI cerdas spasial.
Hasil penelitian menunjukkan bahwa meskipun kinerja model multimodal secara keseluruhan masih lebih rendah dibandingkan manusia, model tersebut telah mencapai atau mendekati tingkat manusia dalam beberapa tugas. Misalnya, Gemini-1.5Pro berkinerja luar biasa dalam tugas-tugas seperti estimasi jarak absolut dan ukuran ruangan, dan beberapa model sumber terbuka seperti seri LLaVA juga telah mencapai hasil yang kompetitif.
Studi tersebut juga menunjukkan bahwa penggunaan peta kognitif untuk membantu penalaran spasial dapat meningkatkan kinerja model dalam tugas spasial secara signifikan, dengan peningkatan akurasi hingga 10 poin persentase. Hal ini menunjukkan bahwa pembuatan peta kognitif secara eksplisit dapat membantu memecahkan hambatan model dalam pemahaman spasial.
Li Feifei mengatakan bahwa kecerdasan spasial adalah kemampuan utama AI untuk memahami dunia fisik dan sangat penting untuk mewujudkan kecerdasan umum buatan (AGI). Ia yakin kecerdasan spasial akan menjadi arah teknologi mutakhir berikutnya di bidang AI, dan bahkan diharapkan dapat mencapai terobosan penting pada tahun 2025.
Pada bulan September tahun ini, World Labs, sebuah perusahaan yang didirikan oleh Li Feifei, mengumumkan peluncuran resminya dan berfokus pada pengembangan model AI dengan kecerdasan spasial. Perusahaan telah menerima investasi dari institusi ternama termasuk Nvidia, a16z, Adobe dan institusi ternama lainnya, dan valuasinya saat ini melebihi US$1 miliar.
Penelitian ini dan penerapannya menandai kemajuan penting dalam teknologi AI dari pemrosesan informasi dua dimensi hingga persepsi ruang tiga dimensi, dan diharapkan dapat digunakan secara luas dalam navigasi, interaksi robot, augmented reality, dan bidang lainnya jalur baru untuk pengembangan lebih lanjut dari kecerdasan buatan.
Hasil penelitian ini menarik dan menunjukkan arah baru bagi pengembangan AI. Di masa depan, dengan kemajuan teknologi yang berkelanjutan, penerapan AI berdasarkan kecerdasan spasial akan sangat mengubah hidup kita dan menghadirkan lebih banyak kemudahan dan kemungkinan bagi masyarakat manusia.