Область искусственного интеллекта призвана позволить машинам понимать сложный физический мир. Прорывы в этой области имеют решающее значение для многих областей. Недавно исследовательские группы из Китайского университета Жэньминь, Пекинского университета почты и телекоммуникаций, Шанхайской лаборатории искусственного интеллекта и других учреждений разработали технологию Ref-AVS, обеспечивающую новое решение этой проблемы. Технология Ref-AVS объединяет множественную модальную информацию, такую как сегментация видеообъектов, сегментация ссылок на видеообъекты и аудиовизуальная сегментация, с помощью умного метода мультимодального слияния, что позволяет системе искусственного интеллекта более точно понимать инструкции на естественном языке и выполнять сложные аудио- визуальные задачи Точное позиционирование целевых объектов на сцене преодолевает предыдущие ограничения ИИ в мультимодальном понимании.
В области искусственного интеллекта заставить машины понимать сложный физический мир так же, как люди, всегда было серьезной проблемой. Недавно исследовательская группа, состоящая из Китайского университета Жэньминь, Пекинского университета почты и телекоммуникаций, Шанхайской лаборатории искусственного интеллекта и других учреждений, предложила революционную технологию — Ref-AVS, которая дает новую надежду на решение этой проблемы.
Суть технологии Ref-AVS заключается в уникальном методе мультимодального синтеза. Он умело объединяет множественную модальную информацию, такую как сегментация видеообъектов (VOS), сегментация ссылок на видеообъекты (Ref-VOS) и аудиовизуальная сегментация (AVS). Это инновационное объединение позволяет системе искусственного интеллекта не только обрабатывать объекты, издающие звуки, но и идентифицировать незвучащие, но не менее важные объекты на сцене. Этот прорыв позволяет ИИ более точно понимать инструкции, описываемые пользователями на естественном языке, и точно находить конкретные объекты в сложных аудиовизуальных сценах.
Чтобы поддержать исследование и проверку технологии Ref-AVS, исследовательская группа создала крупномасштабный набор данных под названием Ref-AVS Bench. Этот набор данных содержит 40 020 видеокадров, охватывающих 6 888 объектов и 20 261 ссылающееся выражение. Каждый видеокадр сопровождается соответствующей звуковой и подробной аннотацией на уровне пикселей. Этот богатый и разнообразный набор данных обеспечивает прочную основу для мультимодальных исследований и открывает новые возможности для будущих исследований в смежных областях.
В серии строгих количественных и качественных экспериментов технология Ref-AVS продемонстрировала отличные результаты. Ref-AVS превосходит другие существующие методы, особенно в подмножестве Seen, полностью доказывая свои мощные возможности сегментации. Что еще более примечательно, так это то, что результаты испытаний на подмножествах Unseen и Null дополнительно подтверждают превосходную способность обобщения и устойчивость технологии Ref-AVS к нулевым ссылкам, что имеет решающее значение для сценариев практического применения.
Успех технологии Ref-AVS не только привлек широкое внимание в научных кругах, но и открыл новые пути для будущего практического применения. Мы можем предвидеть, что эта технология сыграет важную роль во многих областях, таких как видеоанализ, обработка медицинских изображений, автономное вождение и навигация роботов. Например, в области медицины Ref-AVS может помочь врачам более точно интерпретировать сложные медицинские изображения; в области автономного вождения он может улучшить восприятие транспортным средством окружающей среды в робототехнике, может позволить роботам лучше понимать и выполнять устные инструкции человека.
Результаты этого исследования были представлены на ECCV2024, а соответствующие документы и информация о проектах также были обнародованы, что предоставило ценные учебные и исследовательские ресурсы для исследователей и разработчиков во всем мире, заинтересованных в этой области. Такое открытое и щедрое отношение не только отражает академический дух китайской научно-исследовательской группы, но и будет способствовать быстрому развитию всей области искусственного интеллекта.
Появление технологии Ref-AVS знаменует собой важный шаг в мультимодальном понимании искусственного интеллекта. Он не только демонстрирует инновационные возможности китайской научно-исследовательской группы в области искусственного интеллекта, но и рисует более разумный и естественный план будущего взаимодействия человека и компьютера. Поскольку эта технология продолжает совершенствоваться и применяться, у нас есть основания ожидать, что будущие системы искусственного интеллекта смогут лучше понимать и адаптироваться к сложному человеческому миру и привносить революционные изменения во все сферы жизни.
Адрес статьи: https://arxiv.org/abs/2407.10957.
Домашняя страница проекта:
https://gewu-lab.github.io/Ref-AVS/
Короче говоря, появление технологии Ref-AVS привело к новым прорывам в области мультимодального понимания искусственного интеллекта. Ее высокая производительность и широкие перспективы применения заслуживают внимания. Эта технология будет способствовать развитию искусственного интеллекта в направлении более разумных и естественных взаимодействий, принося больше удобства человеческому обществу.