Последние исследования команды профессора Ли Фейфея показывают, что мультимодальные большие модели совершили прорыв в области пространственного интеллекта, продемонстрировав способность запоминать, вспоминать пространство и строить локальные модели мира. В этом исследовании использовался инструмент оценки VSI-Bench для тестирования нескольких крупных моделей на основе реальных видеосценариев. Результаты показали, что некоторые модели достигли или приблизились к человеческому уровню в задачах пространственного мышления, и выяснилось, что помощь с использованием когнитивных карт может значительно улучшить пространственную модель. способность понимания. Это исследование не только раскрывает последние достижения ИИ в области пространственного восприятия, но и предвещает широкое применение ИИ в навигации, взаимодействии роботов и других областях в будущем.
Разработанный исследовательской группой VSI-Bench содержит более 5000 высококачественных пар вопросов и ответов, охватывающих различные сценарии и географические регионы, обеспечивая надежный эталон для оценки визуального пространственного интеллекта. Результаты исследования имеют большое значение для содействия развитию общего искусственного интеллекта (AGI), а также обеспечивают прочную техническую основу для World Labs, компании, основанной профессором Ли Фейфеем, которая занимается разработкой моделей ИИ пространственного интеллекта. Успех компании также подтверждает огромный потенциал и рыночные перспективы пространственного интеллектуального искусственного интеллекта.
Результаты исследования показывают, что, хотя общая производительность мультимодальной модели все еще ниже, чем у человека, в некоторых задачах она достигла или приблизилась к человеческому уровню. Например, Gemini-1.5Pro превосходно справляется с такими задачами, как оценка абсолютного расстояния и размера помещения, а некоторые модели с открытым исходным кодом, такие как серия LLaVA, также достигли конкурентоспособных результатов.
В исследовании также отмечается, что использование когнитивных карт для помощи в пространственном рассуждении может значительно улучшить производительность модели при решении пространственных задач, при этом точность увеличится до 10 процентных пунктов. Это показывает, что явное создание когнитивных карт может помочь преодолеть узкое место модели в пространственном понимании.
Ли Фейфэй сказал, что пространственный интеллект является ключевой способностью ИИ понимать физический мир и имеет решающее значение для реализации общего искусственного интеллекта (AGI). Она считает, что пространственный интеллект станет следующим передовым технологическим направлением в области искусственного интеллекта и, как ожидается, даже достигнет важных прорывов в 2025 году.
В сентябре этого года компания World Labs, основанная Ли Фейфеем, объявила об официальном запуске и сосредоточилась на разработке моделей искусственного интеллекта с пространственным интеллектом. Компания получила инвестиции от известных организаций, включая Nvidia, a16z, Adobe и других известных организаций, а ее текущая оценка превышает 1 миллиард долларов США.
Это исследование и его применение знаменуют собой ключевой прогресс в технологии искусственного интеллекта от двумерной обработки информации к трехмерному восприятию пространства. Ожидается, что в будущем он будет широко использоваться в навигации, взаимодействии роботов, дополненной реальности и других областях. новый путь дальнейшего развития искусственного интеллекта.
Результаты этого исследования впечатляют и указывают на новое направление развития ИИ. В будущем, благодаря постоянному развитию технологий, приложения искусственного интеллекта, основанные на пространственном интеллекте, глубоко изменят нашу жизнь и принесут больше удобства и возможностей человеческому обществу.