Terobosan penelitian terbaru Google memecahkan masalah lama mengenai kurangnya kemampuan penalaran spasial model bahasa visual (VLM). Para peneliti merancang model baru yang disebut SpatialVLM dengan secara cerdik meminjam mekanisme penalaran spasial manusia. Model ini tidak hanya memiliki kemampuan untuk melakukan penalaran spasial secara langsung, namun juga menunjukkan kemampuan berpikir berantai yang mengesankan, yang sulit dicapai di VLM sebelumnya. Pentingnya penelitian ini adalah tidak hanya meningkatkan kinerja VLM dalam masalah spasial dan estimasi kuantitatif, namun yang lebih penting, membuka arah baru bagi pengembangan VLM, yang menunjukkan bahwa bidang kecerdasan buatan akan segera hadir. lompatan baru.
Penelitian terbaru Google mengusulkan SpatialVLM untuk memecahkan masalah model bahasa visual yang kekurangan kemampuan penalaran spasial. Dengan memanfaatkan kemampuan penalaran spasial manusia, para peneliti merancang SpatialVLM agar memiliki kemampuan penalaran spasial langsung dan berpikir berantai. Peneliti menggunakan model seperti deteksi kosakata terbuka, estimasi kedalaman, dan segmentasi semantik untuk melatih SpatialVLM, yang meningkatkan performa model dalam masalah spasial dan estimasi kuantitatif. Rancang kerangka kerja pembuatan data yang komprehensif untuk mengekstrak informasi entitas dan menghasilkan kumpulan data VQA spasial berskala besar, sehingga model tersebut memiliki kemampuan penalaran spasial langsung dan pemikiran berantai. Penelitian ini membawa kemungkinan baru bagi pengembangan model bahasa visual dan kemajuan baru di bidang kecerdasan buatan.
Kemunculan SpatialVLM menandai tonggak penting dalam bidang model bahasa visual. Terobosannya dalam penalaran spasial dan pemikiran rantai akan mendorong penerapan kecerdasan buatan di berbagai bidang, seperti robotika, mengemudi otonom, dan lain-lain. Di masa depan, kita dapat mengharapkan SpatialVLM dan hasil penelitian selanjutnya dapat memberikan kita pengalaman hidup yang lebih cerdas dan nyaman.