Die neueste Forschung des Teams von Professor Li Feifei zeigt, dass multimodale große Modelle Durchbrüche in der räumlichen Intelligenz erzielt haben und die Fähigkeit demonstrieren, sich an den Raum zu erinnern, ihn abzurufen und lokale Weltmodelle zu erstellen. Diese Studie verwendete das VSI-Bench-Bewertungstool, um mehrere große Modelle auf der Grundlage realer Videoszenarien zu testen. Die Ergebnisse zeigten, dass einige Modelle bei räumlichen Denkaufgaben das menschliche Niveau erreichten oder sich diesem annäherten, und fanden heraus, dass die kognitive Kartenunterstützung das räumliche Modell erheblich verbessern kann Verständnisfähigkeit. Diese Forschung enthüllt nicht nur die neuesten Fortschritte der KI im Bereich der räumlichen Wahrnehmung, sondern kündigt auch die weit verbreitete Anwendung von KI in der Navigation, Roboterinteraktion und anderen Bereichen in der Zukunft an.
Die vom Forschungsteam entwickelte VSI-Bench enthält mehr als 5.000 hochwertige Frage- und Antwortpaare, die eine Vielzahl von Szenarien und geografischen Gebieten abdecken und einen zuverlässigen Benchmark für die Bewertung der visuellen räumlichen Intelligenz bieten. Die Forschungsergebnisse sind von großer Bedeutung für die Förderung der Entwicklung allgemeiner künstlicher Intelligenz (AGI) und bilden auch eine solide technische Grundlage für World Labs, ein von Professor Li Feifei gegründetes Unternehmen, das sich auf die Entwicklung räumlicher Intelligenz-KI-Modelle konzentriert. Der Erfolg des Unternehmens bestätigt auch das große Potenzial und die Marktaussichten räumlicher intelligenter KI.
Die Forschungsergebnisse zeigen, dass die Gesamtleistung des multimodalen Modells zwar immer noch geringer ist als die des Menschen, bei einigen Aufgaben jedoch das menschliche Niveau erreicht oder sich diesem angenähert hat. Beispielsweise schneidet Gemini-1.5Pro hervorragend bei Aufgaben wie der absoluten Entfernungs- und Raumgrößenschätzung ab, und auch einige Open-Source-Modelle wie die LLaVA-Serie haben konkurrenzfähige Ergebnisse erzielt.
Die Studie wies auch darauf hin, dass die Verwendung kognitiver Karten zur Unterstützung des räumlichen Denkens die Leistung des Modells bei räumlichen Aufgaben erheblich verbessern kann, wobei die Genauigkeit um bis zu 10 Prozentpunkte steigt. Dies zeigt, dass die explizite Generierung kognitiver Karten dazu beitragen kann, den Engpass des Modells beim räumlichen Verständnis zu überwinden.
Li Feifei sagte, dass räumliche Intelligenz die Schlüsselfähigkeit der KI sei, die physische Welt zu verstehen, und von entscheidender Bedeutung für die Verwirklichung der künstlichen allgemeinen Intelligenz (AGI) sei. Sie glaubt, dass räumliche Intelligenz die nächste bahnbrechende Technologierichtung im Bereich der KI sein wird und im Jahr 2025 sogar wichtige Durchbrüche erzielen wird.
Im September dieses Jahres gab World Labs, ein von Li Feifei gegründetes Unternehmen, seinen offiziellen Start bekannt und konzentriert sich auf die Entwicklung von KI-Modellen mit räumlicher Intelligenz. Das Unternehmen hat Investitionen von namhaften Institutionen wie Nvidia, a16z, Adobe und anderen namhaften Institutionen erhalten und seine aktuelle Bewertung übersteigt 1 Milliarde US-Dollar.
Diese Forschung und ihre Anwendung stellen einen entscheidenden Fortschritt in der KI-Technologie von der zweidimensionalen Informationsverarbeitung zur dreidimensionalen Raumwahrnehmung dar. Es wird erwartet, dass sie in Zukunft in großem Umfang in den Bereichen Navigation, Roboterinteraktion, Augmented Reality und anderen Bereichen eingesetzt wird ein neuer Weg für die Weiterentwicklung der künstlichen Intelligenz.
Die Ergebnisse dieser Forschung sind spannend und weisen eine neue Richtung für die Entwicklung der KI auf. In Zukunft werden KI-Anwendungen, die auf räumlicher Intelligenz basieren, mit der kontinuierlichen Weiterentwicklung der Technologie unser Leben tiefgreifend verändern und der menschlichen Gesellschaft mehr Komfort und Möglichkeiten bieten.