A última pesquisa da equipe do professor Li Feifei mostra que grandes modelos multimodais fizeram avanços na inteligência espacial, demonstrando a capacidade de lembrar, recordar o espaço e construir modelos do mundo local. Este estudo usou a ferramenta de avaliação VSI-Bench para testar vários modelos grandes com base em cenários de vídeo reais. Os resultados mostraram que alguns modelos atingiram ou se aproximaram dos níveis humanos em tarefas de raciocínio espacial e descobriram que a assistência do mapa cognitivo pode melhorar significativamente o modelo espacial. capacidade de compreensão. Esta pesquisa não apenas revela os mais recentes progressos da IA no campo da percepção espacial, mas também anuncia a aplicação generalizada da IA na navegação, interação de robôs e outros campos no futuro.
O VSI-Bench desenvolvido pela equipe de pesquisa contém mais de 5.000 pares de perguntas e respostas de alta qualidade, cobrindo uma variedade de cenários e áreas geográficas, fornecendo uma referência confiável para avaliar a inteligência espacial visual. Os resultados da investigação são de grande importância na promoção do desenvolvimento da inteligência artificial geral (AGI), e também fornecem uma base técnica sólida para o World Labs, uma empresa fundada pelo Professor Li Feifei que se concentra no desenvolvimento de modelos de IA de inteligência espacial. O sucesso da empresa também confirma o enorme potencial e as perspectivas de mercado da IA espacial inteligente.
Os resultados da investigação mostram que, embora o desempenho global do modelo multimodal ainda seja inferior ao dos humanos, atingiu ou aproximou-se dos níveis humanos em algumas tarefas. Por exemplo, o Gemini-1.5Pro tem um desempenho excelente em tarefas como distância absoluta e estimativa do tamanho da sala, e alguns modelos de código aberto, como a série LLaVA, também alcançaram resultados competitivos.
O estudo também apontou que o uso de mapas cognitivos para auxiliar o raciocínio espacial pode melhorar significativamente o desempenho do modelo em tarefas espaciais, com a precisão aumentando em até 10 pontos percentuais. Isso mostra que a geração explícita de mapas cognitivos pode ajudar a romper o gargalo do modelo na compreensão espacial.
Li Feifei disse que a inteligência espacial é a principal capacidade da IA para compreender o mundo físico e é crucial para a realização da inteligência artificial geral (AGI). Ela acredita que a inteligência espacial se tornará a próxima direção tecnológica de ponta no campo da IA, e espera-se que alcance avanços importantes em 2025.
Em setembro deste ano, a World Labs, empresa fundada por Li Feifei, anunciou seu lançamento oficial e se concentra no desenvolvimento de modelos de IA com inteligência espacial. A empresa recebeu investimentos de instituições conhecidas, incluindo Nvidia, a16z, Adobe e outras instituições conhecidas, e sua avaliação atual ultrapassa US$ 1 bilhão.
Esta pesquisa e sua aplicação marcam um avanço importante na tecnologia de IA, desde o processamento de informações bidimensionais até a percepção espacial tridimensional. No futuro, espera-se que seja amplamente utilizado na navegação, interação de robôs, realidade aumentada e outros campos, abrindo-se. um novo caminho para o desenvolvimento da inteligência artificial.
Os resultados desta pesquisa são entusiasmantes e apontam uma nova direção para o desenvolvimento da IA. No futuro, com o avanço contínuo da tecnologia, as aplicações de IA baseadas na inteligência espacial mudarão profundamente as nossas vidas e trarão mais conveniência e possibilidades à sociedade humana.