Les dernières recherches menées par l'équipe du professeur Li Feifei montrent que les grands modèles multimodaux ont fait des percées dans l'intelligence spatiale, démontrant la capacité de mémoriser, de rappeler l'espace et de construire des modèles du monde local. Cette étude a utilisé l'outil d'évaluation VSI-Bench pour tester plusieurs grands modèles basés sur des scénarios vidéo réels. Les résultats ont montré que certains modèles ont atteint ou approché les niveaux humains dans les tâches de raisonnement spatial, et ont révélé que l'assistance cartographique cognitive peut améliorer considérablement le modèle spatial. capacité de compréhension. Cette recherche révèle non seulement les derniers progrès de l’IA dans le domaine de la perception spatiale, mais annonce également l’application généralisée de l’IA à la navigation, à l’interaction des robots et à d’autres domaines à l’avenir.
Le VSI-Bench développé par l’équipe de recherche contient plus de 5 000 paires de questions et réponses de haute qualité, couvrant une variété de scénarios et de zones géographiques, fournissant une référence fiable pour évaluer l’intelligence spatiale visuelle. Les résultats de la recherche sont d'une grande importance pour promouvoir le développement de l'intelligence artificielle générale (AGI) et fournissent également une base technique solide pour World Labs, une société fondée par le professeur Li Feifei qui se concentre sur le développement de modèles d'IA d'intelligence spatiale. Le succès de l’entreprise confirme également l’énorme potentiel et les perspectives de marché de l’IA spatiale intelligente.
Les résultats de la recherche montrent que même si les performances globales du modèle multimodal sont encore inférieures à celles des humains, elles ont atteint ou approché les niveaux humains sur certaines tâches. Par exemple, Gemini-1.5Pro effectue des tâches exceptionnelles telles que l'estimation de la distance absolue et de la taille d'une pièce, et certains modèles open source tels que la série LLaVA ont également obtenu des résultats compétitifs.
L'étude a également souligné que l'utilisation de cartes cognitives pour faciliter le raisonnement spatial peut améliorer considérablement les performances du modèle sur les tâches spatiales, la précision augmentant jusqu'à 10 points de pourcentage. Cela montre que la génération explicite de cartes cognitives peut aider à surmonter le goulot d'étranglement du modèle dans la compréhension spatiale.
Li Feifei a déclaré que l'intelligence spatiale est la capacité clé de l'IA à comprendre le monde physique et est cruciale pour la réalisation de l'intelligence artificielle générale (AGI). Elle estime que l'intelligence spatiale deviendra la prochaine direction technologique de pointe dans le domaine de l'IA et qu'elle devrait même réaliser des percées importantes en 2025.
En septembre de cette année, World Labs, une société fondée par Li Feifei, a annoncé son lancement officiel et se concentre sur le développement de modèles d'IA dotés d'une intelligence spatiale. La société a reçu des investissements d'institutions bien connues, notamment Nvidia, a16z, Adobe et d'autres institutions bien connues, et sa valorisation actuelle dépasse le milliard de dollars américains.
Cette recherche et ses applications marquent une avancée clé dans la technologie de l'IA, du traitement de l'information bidimensionnelle à la perception de l'espace tridimensionnel. À l'avenir, elle devrait être largement utilisée dans la navigation, l'interaction robotique, la réalité augmentée et d'autres domaines, ouvrant ainsi la voie. une nouvelle voie pour le développement ultérieur de l’intelligence artificielle.
Les résultats de cette recherche sont passionnants et indiquent une nouvelle direction pour le développement de l’IA. À l’avenir, avec les progrès continus de la technologie, les applications d’IA basées sur l’intelligence spatiale changeront profondément nos vies et apporteront plus de commodité et de possibilités à la société humaine.