La última investigación realizada por el equipo del profesor Li Feifei muestra que los grandes modelos multimodales han logrado avances en la inteligencia espacial, demostrando la capacidad de recordar, recordar el espacio y construir modelos del mundo local. Este estudio utilizó la herramienta de evaluación VSI-Bench para probar múltiples modelos grandes basados en escenarios de video reales. Los resultados mostraron que algunos modelos han alcanzado o se acercaron a niveles humanos en tareas de razonamiento espacial y encontraron que la asistencia de mapas cognitivos puede mejorar significativamente el modelo. capacidad de comprensión. Esta investigación no sólo revela los últimos avances de la IA en el campo de la percepción espacial, sino que también presagia la aplicación generalizada de la IA en la navegación, la interacción de robots y otros campos en el futuro.
El VSI-Bench desarrollado por el equipo de investigación contiene más de 5000 pares de preguntas y respuestas de alta calidad, que cubren una variedad de escenarios y áreas geográficas, lo que proporciona un punto de referencia confiable para evaluar la inteligencia espacial visual. Los resultados de la investigación son de gran importancia para promover el desarrollo de la inteligencia artificial general (AGI) y también proporcionan una base técnica sólida para World Labs, una empresa fundada por el profesor Li Feifei que se centra en el desarrollo de modelos de IA de inteligencia espacial. El éxito de la empresa también confirma el enorme potencial y las perspectivas de mercado de la IA espacial inteligente.
Los resultados de la investigación muestran que, aunque el rendimiento general del modelo multimodal sigue siendo inferior al de los humanos, ha alcanzado o se ha acercado a niveles humanos en algunas tareas. Por ejemplo, Gemini-1.5Pro se desempeña de manera sobresaliente en tareas como la distancia absoluta y la estimación del tamaño de una habitación, y algunos modelos de código abierto como la serie LLaVA también han logrado resultados competitivos.
El estudio también señaló que el uso de mapas cognitivos para ayudar al razonamiento espacial puede mejorar significativamente el rendimiento del modelo en tareas espaciales, aumentando la precisión hasta en 10 puntos porcentuales. Esto muestra que generar mapas cognitivos explícitamente puede ayudar a superar el cuello de botella del modelo en la comprensión espacial.
Li Feifei dijo que la inteligencia espacial es la capacidad clave de la IA para comprender el mundo físico y es crucial para la realización de la inteligencia artificial general (AGI). Ella cree que la inteligencia espacial se convertirá en la próxima dirección tecnológica de vanguardia en el campo de la IA, e incluso se espera que logre avances importantes en 2025.
En septiembre de este año, World Labs, empresa fundada por Li Feifei, anunció su lanzamiento oficial y se centra en el desarrollo de modelos de IA con inteligencia espacial. La empresa ha recibido inversiones de instituciones reconocidas como Nvidia, a16z, Adobe y otras instituciones reconocidas, y su valoración actual supera los mil millones de dólares.
Esta investigación y su aplicación marcan un avance clave en la tecnología de IA desde el procesamiento de información bidimensional hasta la percepción espacial tridimensional. En el futuro, se espera que se utilice ampliamente en navegación, interacción de robots, realidad aumentada y otros campos, abriéndose. un nuevo camino para un mayor desarrollo de la inteligencia artificial.
Los resultados de esta investigación son apasionantes y señalan una nueva dirección para el desarrollo de la IA. En el futuro, con el avance continuo de la tecnología, las aplicaciones de IA basadas en inteligencia espacial cambiarán profundamente nuestras vidas y brindarán más comodidades y posibilidades a la sociedad humana.