يُظهر أحدث الأبحاث التي أجراها فريق البروفيسور لي فيفي أن النماذج الكبيرة متعددة الوسائط حققت تقدمًا كبيرًا في الذكاء المكاني، مما يدل على القدرة على التذكر واستدعاء الفضاء وبناء نماذج عالمية محلية. استخدمت هذه الدراسة أداة التقييم VSI-Bench لاختبار نماذج كبيرة متعددة بناءً على سيناريوهات فيديو حقيقية. وأظهرت النتائج أن بعض النماذج قد وصلت أو اقتربت من المستويات البشرية في مهام الاستدلال المكاني، ووجدت أن مساعدة الخريطة المعرفية يمكن أن تحسن النموذج بشكل كبير القدرة على الفهم. لا يكشف هذا البحث عن أحدث التقدم الذي أحرزه الذكاء الاصطناعي في مجال الإدراك المكاني فحسب، بل يبشر أيضًا بالتطبيق الواسع النطاق للذكاء الاصطناعي في الملاحة وتفاعل الروبوتات وغيرها من المجالات في المستقبل.
يحتوي VSI-Bench الذي طوره فريق البحث على أكثر من 5000 زوج من الأسئلة والأجوبة عالية الجودة، تغطي مجموعة متنوعة من السيناريوهات والمناطق الجغرافية، مما يوفر معيارًا موثوقًا لتقييم الذكاء البصري المكاني. ولنتائج البحث أهمية كبيرة في تعزيز تطوير الذكاء العام الاصطناعي (AGI)، وتوفر أيضًا أساسًا تقنيًا متينًا لشركة World Labs، وهي شركة أسسها البروفيسور لي فيفي والتي تركز على تطوير نماذج الذكاء الاصطناعي للذكاء المكاني. ويؤكد نجاح الشركة أيضًا الإمكانات الهائلة وآفاق السوق للذكاء الاصطناعي المكاني.
تظهر نتائج البحث أنه على الرغم من أن الأداء العام للنموذج متعدد الوسائط لا يزال أقل من أداء البشر، إلا أنه قد وصل أو اقترب من المستويات البشرية في بعض المهام. على سبيل المثال، يؤدي Gemini-1.5Pro أداءً رائعًا في مهام مثل المسافة المطلقة وتقدير حجم الغرفة، كما حققت بعض النماذج مفتوحة المصدر مثل سلسلة LLaVA أيضًا نتائج تنافسية.
وأشارت الدراسة أيضًا إلى أن استخدام الخرائط المعرفية لمساعدة الاستدلال المكاني يمكن أن يحسن بشكل كبير أداء النموذج في المهام المكانية، مع زيادة الدقة بنسبة تصل إلى 10 نقاط مئوية. يوضح هذا أن إنشاء خرائط معرفية بشكل صريح يمكن أن يساعد في اختراق عنق الزجاجة في النموذج في الفهم المكاني.
وقال لي فيفي إن الذكاء المكاني هو القدرة الأساسية للذكاء الاصطناعي على فهم العالم المادي وهو أمر بالغ الأهمية لتحقيق الذكاء العام الاصطناعي (AGI). وتعتقد أن الذكاء المكاني سيصبح الاتجاه التكنولوجي المتقدم التالي في مجال الذكاء الاصطناعي، ومن المتوقع أن يحقق اختراقات مهمة في عام 2025.
في سبتمبر من هذا العام، أعلنت شركة World Labs، وهي شركة أسسها لي فيفي، عن إطلاقها الرسمي وتركز على تطوير نماذج الذكاء الاصطناعي ذات الذكاء المكاني. وقد تلقت الشركة استثمارات من مؤسسات معروفة بما في ذلك Nvidia وa16z وAdobe وغيرها من المؤسسات المعروفة، وتتجاوز قيمتها الحالية المليار دولار أمريكي.
يمثل هذا البحث وتطبيقه تقدمًا رئيسيًا في تكنولوجيا الذكاء الاصطناعي من معالجة المعلومات ثنائية الأبعاد إلى إدراك الفضاء ثلاثي الأبعاد، ومن المتوقع أن يتم استخدامه على نطاق واسع في المستقبل في الملاحة والتفاعل مع الروبوت والواقع المعزز وغيرها من المجالات مسار جديد لمواصلة تطوير الذكاء الاصطناعي.
نتائج هذا البحث مثيرة وتشير إلى اتجاه جديد لتطوير الذكاء الاصطناعي. في المستقبل، ومع التقدم التكنولوجي المستمر، ستغير تطبيقات الذكاء الاصطناعي القائمة على الذكاء المكاني حياتنا بشكل عميق وستجلب المزيد من الراحة والإمكانيات للمجتمع البشري.