O mais recente avanço da pesquisa do Google resolve o problema de longa data de capacidades insuficientes de raciocínio espacial dos modelos de linguagem visual (VLM). Os pesquisadores projetaram um novo modelo chamado SpatialVLM, emprestando de forma inteligente mecanismos de raciocínio espacial humano. Este modelo não só tem a capacidade de realizar raciocínio espacial diretamente, mas também exibe impressionantes capacidades de pensamento em cadeia, o que tem sido difícil de alcançar em VLMs anteriores. O significado desta pesquisa é que ela não apenas melhora o desempenho do VLM em problemas espaciais e estimativa quantitativa, mas, mais importante, abre uma nova direção para o desenvolvimento do VLM, indicando que o campo da inteligência artificial está prestes a inaugurar um novo salto.
A pesquisa mais recente do Google propõe o SpatialVLM para resolver o problema de modelos de linguagem visual sem capacidade de raciocínio espacial. Baseando-se nas capacidades de raciocínio espacial humano, os pesquisadores projetaram o SpatialVLM para ter raciocínio espacial direto e capacidades de pensamento em cadeia. Os pesquisadores usam modelos como detecção de vocabulário aberto, estimativa de profundidade e segmentação semântica para treinar o SpatialVLM, o que melhora o desempenho do modelo em problemas espaciais e estimativa quantitativa. Projete uma estrutura abrangente de geração de dados para extrair informações da entidade e gerar conjuntos de dados VQA espaciais em grande escala, para que o modelo tenha a capacidade de raciocínio espacial direto e pensamento em cadeia. Esta pesquisa traz novas possibilidades para o desenvolvimento de modelos de linguagem visual e novos avanços no campo da inteligência artificial.
O surgimento do SpatialVLM marca um marco importante no campo dos modelos de linguagem visual. Os seus avanços no raciocínio espacial e no pensamento em cadeia promoverão a aplicação da inteligência artificial numa gama mais ampla de campos, como a robótica, a condução autónoma, etc. No futuro, podemos esperar que o SpatialVLM e seus resultados de pesquisa subsequentes nos tragam uma experiência de vida mais inteligente e conveniente.