أحدث إنجاز بحثي لشركة Google يحل المشكلة طويلة الأمد المتمثلة في عدم كفاية قدرات التفكير المكاني لنماذج اللغة المرئية (VLM). صمم الباحثون نموذجًا جديدًا يسمى SpatialVLM من خلال الاقتراض بذكاء من آليات التفكير المكاني البشرية. لا يتمتع هذا النموذج بالقدرة على تنفيذ الاستدلال المكاني بشكل مباشر فحسب، بل يُظهر أيضًا قدرات مذهلة في التفكير المتسلسل، وهو ما كان من الصعب تحقيقه في VLMs السابقة. تكمن أهمية هذا البحث في أنه لا يحسن أداء VLM في المشكلات المكانية والتقدير الكمي فحسب، بل الأهم من ذلك أنه يفتح اتجاهًا جديدًا لتطوير VLM، مما يشير إلى أن مجال الذكاء الاصطناعي على وشك الدخول قفزة جديدة.
يقترح أحدث بحث أجرته Google أن SpatialVLM يحل مشكلة نماذج اللغة المرئية التي تفتقر إلى قدرات التفكير المكاني. من خلال الاعتماد على قدرات التفكير المكاني البشري، صمم الباحثون SpatialVLM ليتمتع بقدرات التفكير المكاني المباشر والتفكير المتسلسل. يستخدم الباحثون نماذج مثل الكشف عن المفردات المفتوحة، وتقدير العمق، والتجزئة الدلالية لتدريب SpatialVLM، مما يحسن أداء النموذج في المشكلات المكانية والتقدير الكمي. تصميم إطار شامل لتوليد البيانات لاستخراج معلومات الكيان وإنشاء مجموعات بيانات VQA مكانية واسعة النطاق، بحيث يتمتع النموذج بالقدرة على التفكير المكاني المباشر والتفكير المتسلسل. يجلب هذا البحث إمكانيات جديدة لتطوير نماذج اللغة المرئية والتقدم الجديد في مجال الذكاء الاصطناعي.
يمثل ظهور SpatialVLM علامة فارقة مهمة في مجال نماذج اللغة المرئية، وسوف تعمل اختراقاتها في التفكير المكاني والتفكير المتسلسل على تعزيز تطبيق الذكاء الاصطناعي في نطاق أوسع من المجالات، مثل الروبوتات، والقيادة الذاتية، وما إلى ذلك. في المستقبل، يمكننا أن نتوقع أن توفر لنا SpatialVLM ونتائج الأبحاث اللاحقة تجربة حياة أكثر ذكاءً وملاءمة.