การวิจัยล่าสุดโดยทีมงานของศาสตราจารย์หลี่ เฟยเฟย แสดงให้เห็นว่าแบบจำลองขนาดใหญ่หลายรูปแบบได้ก่อให้เกิดความก้าวหน้าในด้านความฉลาดเชิงพื้นที่ ซึ่งแสดงให้เห็นถึงความสามารถในการจดจำ เรียกคืนพื้นที่ และสร้างแบบจำลองโลกในท้องถิ่น การศึกษานี้ใช้เครื่องมือประเมินผล VSI-Bench เพื่อทดสอบแบบจำลองขนาดใหญ่หลายแบบตามสถานการณ์จริงในวิดีโอ ผลการวิจัยพบว่าแบบจำลองบางแบบเข้าถึงหรือเข้าถึงระดับของมนุษย์ในงานการให้เหตุผลเชิงพื้นที่ และพบว่าความช่วยเหลือเกี่ยวกับแผนที่การรับรู้สามารถปรับปรุงแบบจำลองได้อย่างมาก ความสามารถในการเข้าใจ งานวิจัยนี้ไม่เพียงแต่เผยให้เห็นความก้าวหน้าล่าสุดของ AI ในด้านการรับรู้เชิงพื้นที่ แต่ยังเป็นการประกาศถึงการนำ AI ไปใช้อย่างแพร่หลายในการนำทาง ปฏิสัมพันธ์ของหุ่นยนต์ และสาขาอื่น ๆ ในอนาคต
VSI-Bench ที่พัฒนาโดยทีมวิจัยประกอบด้วยคู่คำถามและคำตอบคุณภาพสูงมากกว่า 5,000 คู่ ครอบคลุมสถานการณ์และพื้นที่ทางภูมิศาสตร์ที่หลากหลาย ถือเป็นเกณฑ์มาตรฐานที่เชื่อถือได้สำหรับการประเมินความฉลาดทางการมองเห็นเชิงพื้นที่ ผลการวิจัยมีความสำคัญอย่างยิ่งในการส่งเสริมการพัฒนาปัญญาประดิษฐ์ทั่วไป (AGI) และยังถือเป็นรากฐานทางเทคนิคที่แข็งแกร่งสำหรับ World Labs ซึ่งเป็นบริษัทที่ก่อตั้งโดยศาสตราจารย์หลี่ เฟยเฟย ซึ่งมุ่งเน้นการพัฒนาแบบจำลอง AI ปัญญาเชิงพื้นที่ ความสำเร็จของบริษัทยังยืนยันถึงศักยภาพมหาศาลและโอกาสทางการตลาดของ AI อัจฉริยะเชิงพื้นที่
ผลการวิจัยแสดงให้เห็นว่า แม้ว่าประสิทธิภาพโดยรวมของแบบจำลองหลายรูปแบบจะยังคงต่ำกว่าประสิทธิภาพของมนุษย์ แต่ก็ได้เข้าถึงหรือเข้าใกล้ระดับของมนุษย์ในบางงานแล้ว ตัวอย่างเช่น Gemini-1.5Pro ทำงานได้อย่างโดดเด่นในงานต่างๆ เช่น การประมาณระยะทางสัมบูรณ์และขนาดห้อง และโมเดลโอเพ่นซอร์สบางรุ่น เช่น ซีรีส์ LLaVA ก็บรรลุผลการแข่งขันเช่นกัน
การศึกษายังชี้ให้เห็นว่าการใช้แผนที่การรับรู้เพื่อช่วยในการใช้เหตุผลเชิงพื้นที่สามารถปรับปรุงประสิทธิภาพของแบบจำลองในงานเชิงพื้นที่ได้อย่างมาก โดยมีความแม่นยำเพิ่มขึ้นถึง 10 เปอร์เซ็นต์ นี่แสดงให้เห็นว่าการสร้างแผนที่การรับรู้อย่างชัดเจนสามารถช่วยฝ่าฟันคอขวดของโมเดลในการทำความเข้าใจเชิงพื้นที่ได้
Li Feifei กล่าวว่าความฉลาดเชิงพื้นที่เป็นความสามารถหลักของ AI ในการทำความเข้าใจโลกทางกายภาพ และมีความสำคัญอย่างยิ่งต่อการทำให้เกิดปัญญาประดิษฐ์ทั่วไป (AGI) เธอเชื่อว่าความฉลาดเชิงพื้นที่จะกลายเป็นทิศทางเทคโนโลยีล้ำหน้าถัดไปในด้าน AI และคาดว่าจะบรรลุความก้าวหน้าครั้งสำคัญในปี 2568
ในเดือนกันยายนปีนี้ World Labs บริษัทที่ก่อตั้งโดย Li Feifei ได้ประกาศเปิดตัวอย่างเป็นทางการและมุ่งเน้นไปที่การพัฒนาโมเดล AI ที่มีความฉลาดเชิงพื้นที่ บริษัทได้รับการลงทุนจากสถาบันที่มีชื่อเสียง เช่น Nvidia, a16z, Adobe และสถาบันที่มีชื่อเสียงอื่นๆ และมูลค่าปัจจุบันของบริษัทเกินกว่า 1 พันล้านดอลลาร์สหรัฐ
การวิจัยครั้งนี้และการประยุกต์ใช้ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยี AI ตั้งแต่การประมวลผลข้อมูลสองมิติไปจนถึงการรับรู้อวกาศสามมิติ ในอนาคต คาดว่าจะมีการใช้กันอย่างแพร่หลายในด้านการนำทาง การโต้ตอบของหุ่นยนต์ ความเป็นจริงเสริม และสาขาอื่นๆ เส้นทางใหม่ในการพัฒนาปัญญาประดิษฐ์เพิ่มเติม
ผลการวิจัยครั้งนี้น่าตื่นเต้นและชี้ให้เห็นทิศทางใหม่ในการพัฒนา AI ในอนาคต ด้วยความก้าวหน้าทางเทคโนโลยีอย่างต่อเนื่อง แอปพลิเคชัน AI ที่อิงตามความฉลาดเชิงพื้นที่จะเปลี่ยนชีวิตของเราอย่างลึกซึ้ง และนำความสะดวกสบายและความเป็นไปได้มาสู่สังคมมนุษย์มากขึ้น