El último avance de la investigación de Google resuelve el problema de larga data de la insuficiencia de las capacidades de razonamiento espacial de los modelos de lenguaje visual (VLM). Los investigadores diseñaron un nuevo modelo llamado SpatialVLM tomando prestado inteligentemente los mecanismos de razonamiento espacial humano. Este modelo no solo tiene la capacidad de realizar razonamiento espacial directamente, sino que también exhibe impresionantes capacidades de pensamiento en cadena, lo que ha sido difícil de lograr en VLM anteriores. La importancia de esta investigación es que no solo mejora el rendimiento de VLM en problemas espaciales y estimación cuantitativa, sino que, lo que es más importante, abre una nueva dirección para el desarrollo de VLM, lo que indica que el campo de la inteligencia artificial está a punto de marcar el comienzo. un nuevo salto.
La última investigación de Google propone SpatialVLM para resolver el problema de los modelos de lenguaje visual que carecen de capacidades de razonamiento espacial. Aprovechando las capacidades de razonamiento espacial humano, los investigadores diseñaron SpatialVLM para que tenga capacidades de razonamiento espacial directo y pensamiento en cadena. Los investigadores utilizan modelos como la detección de vocabulario abierto, la estimación de profundidad y la segmentación semántica para entrenar SpatialVLM, lo que mejora el rendimiento del modelo en problemas espaciales y estimación cuantitativa. Diseñe un marco integral de generación de datos para extraer información de entidades y generar conjuntos de datos VQA espaciales a gran escala, de modo que el modelo tenga la capacidad de razonamiento espacial directo y pensamiento en cadena. Esta investigación aporta nuevas posibilidades al desarrollo de modelos de lenguaje visual y nuevos avances en el campo de la inteligencia artificial.
La aparición de SpatialVLM marca un hito importante en el campo de los modelos de lenguaje visual. Sus avances en el razonamiento espacial y el pensamiento en cadena promoverán la aplicación de la inteligencia artificial en una gama más amplia de campos, como la robótica, la conducción autónoma, etc. En el futuro, podemos esperar que SpatialVLM y los resultados de sus investigaciones posteriores nos brinden una experiencia de vida más inteligente y conveniente.