ความก้าวหน้าทางการวิจัยล่าสุดของ Google ช่วยแก้ปัญหาที่มีมายาวนานในเรื่องความสามารถในการให้เหตุผลเชิงพื้นที่ไม่เพียงพอของแบบจำลองภาษาภาพ (VLM) นักวิจัยได้ออกแบบโมเดลใหม่ที่เรียกว่า SpatialVLM โดยการยืมกลไกการให้เหตุผลเชิงพื้นที่ของมนุษย์อย่างชาญฉลาด โมเดลนี้ไม่เพียงแต่มีความสามารถในการให้เหตุผลเชิงพื้นที่โดยตรงเท่านั้น แต่ยังแสดงความสามารถในการคิดแบบลูกโซ่ที่น่าประทับใจ ซึ่งทำได้ยากใน VLM ก่อนหน้านี้ ความสำคัญของการวิจัยครั้งนี้คือ ไม่เพียงแต่ปรับปรุงประสิทธิภาพของ VLM ในปัญหาเชิงพื้นที่และการประมาณค่าเชิงปริมาณเท่านั้น แต่ที่สำคัญกว่านั้น ยังเปิดทิศทางใหม่สำหรับการพัฒนา VLM ซึ่งบ่งชี้ว่าสาขาปัญญาประดิษฐ์กำลังจะมาถึง การก้าวกระโดดครั้งใหม่
การวิจัยล่าสุดของ Google เสนอ SpatialVLM เพื่อแก้ปัญหาโมเดลภาษาภาพที่ขาดความสามารถในการให้เหตุผลเชิงพื้นที่ นักวิจัยได้ออกแบบ SpatialVLM ให้มีความสามารถในการให้เหตุผลเชิงพื้นที่โดยตรงและการคิดแบบลูกโซ่ด้วยการใช้ความสามารถในการให้เหตุผลเชิงพื้นที่ของมนุษย์ นักวิจัยใช้แบบจำลอง เช่น การตรวจจับคำศัพท์แบบเปิด การประมาณค่าเชิงลึก และการแบ่งส่วนความหมายเพื่อฝึก SpatialVLM ซึ่งปรับปรุงประสิทธิภาพของแบบจำลองในปัญหาเชิงพื้นที่และการประมาณค่าเชิงปริมาณ ออกแบบกรอบงานการสร้างข้อมูลที่ครอบคลุมเพื่อแยกข้อมูลเอนทิตีและสร้างชุดข้อมูล VQA เชิงพื้นที่ขนาดใหญ่ เพื่อให้แบบจำลองมีความสามารถในการให้เหตุผลเชิงพื้นที่โดยตรงและการคิดแบบลูกโซ่ งานวิจัยนี้นำเสนอความเป็นไปได้ใหม่ ๆ ในการพัฒนาแบบจำลองภาษาภาพและความก้าวหน้าใหม่ในด้านปัญญาประดิษฐ์
การเกิดขึ้นของ SpatialVLM ถือเป็นก้าวสำคัญในด้านโมเดลภาษาภาพ ความก้าวหน้าในด้านการใช้เหตุผลเชิงพื้นที่และการคิดแบบลูกโซ่จะส่งเสริมการประยุกต์ใช้ปัญญาประดิษฐ์ในสาขาต่างๆ ที่กว้างขึ้น เช่น หุ่นยนต์ การขับขี่อัตโนมัติ เป็นต้น ในอนาคต เราคาดหวังได้ว่า SpatialVLM และผลการวิจัยที่ตามมาจะทำให้เราได้รับประสบการณ์ชีวิตที่ชาญฉลาดและสะดวกสบายยิ่งขึ้น