La dernière percée de Google en matière de recherche résout le problème de longue date des capacités de raisonnement spatial insuffisantes des modèles de langage visuel (VLM). Les chercheurs ont conçu un nouveau modèle appelé SpatialVLM en empruntant intelligemment aux mécanismes de raisonnement spatial humain. Ce modèle a non seulement la capacité d’effectuer directement un raisonnement spatial, mais présente également des capacités impressionnantes de réflexion en chaîne, ce qui était difficile à réaliser dans les VLM précédents. L'importance de cette recherche est qu'elle améliore non seulement les performances du VLM dans les problèmes spatiaux et l'estimation quantitative, mais plus important encore, elle ouvre une nouvelle direction pour le développement du VLM, indiquant que le domaine de l'intelligence artificielle est sur le point d'inaugurer un nouveau saut.
Les dernières recherches de Google proposent SpatialVLM pour résoudre le problème des modèles de langage visuel dépourvus de capacités de raisonnement spatial. En s’appuyant sur les capacités humaines de raisonnement spatial, les chercheurs ont conçu SpatialVLM pour disposer de capacités de raisonnement spatial direct et de pensée en chaîne. Les chercheurs utilisent des modèles tels que la détection de vocabulaire ouvert, l'estimation de la profondeur et la segmentation sémantique pour former SpatialVLM, ce qui améliore les performances du modèle dans les problèmes spatiaux et l'estimation quantitative. Concevoir un cadre complet de génération de données pour extraire des informations sur les entités et générer des ensembles de données VQA spatiales à grande échelle, afin que le modèle ait la capacité de raisonnement spatial direct et de pensée en chaîne. Cette recherche apporte de nouvelles possibilités au développement de modèles de langage visuel et de nouveaux progrès dans le domaine de l'intelligence artificielle.
L’émergence de SpatialVLM marque une étape importante dans le domaine des modèles de langage visuel. Ses avancées en matière de raisonnement spatial et de pensée en chaîne favoriseront l’application de l’intelligence artificielle dans un éventail de domaines plus large, comme la robotique, la conduite autonome, etc. À l’avenir, nous pouvons nous attendre à ce que SpatialVLM et ses résultats de recherche ultérieurs nous apportent une expérience de vie plus intelligente et plus pratique.