Редактор Downcodes познакомит вас с SegVG, новым фреймворком, который решает проблему целевого позиционирования в сфере видения ИИ! Традиционный алгоритм позиционирования цели подобен «близорукости». Он может лишь приблизительно выбрать цель и не может уловить детали. SegVG преодолевает это узкое место. Он использует подробную информацию на уровне пикселей, чтобы заставить ИИ чувствовать себя как в «очках высокой четкости» и точно идентифицировать каждый пиксель цели. В этой статье в простой и понятной форме будут представлены принцип работы, преимущества и потенциал SegVG в практическом применении, а также приложены ссылки на статьи и коды, чтобы облегчить читателям углубленное изучение и исследования.
В области видения ИИ целевое позиционирование всегда было сложной проблемой. Традиционный алгоритм подобен «близорукости». Он может лишь примерно обвести цель «рамкой», но не может четко рассмотреть детали внутри. Это все равно, что описать человека другу и указать только общий рост и телосложение. Странно, что ваш друг может найти этого человека!
Чтобы решить эту проблему, группа крупных ребят из Технологического института Иллинойса, Исследовательского института Cisco и Университета Центральной Флориды разработала новую систему визуального позиционирования под названием SegVG, утверждающую, что ИИ попрощается с «близорукостью»!
Основной секрет SegVG: детали «на уровне пикселей» Традиционный алгоритм использует только информацию ограничивающего прямоугольника для обучения ИИ, что эквивалентно показу ИИ только размытой тени. SegVG преобразует информацию ограничивающего прямоугольника в сигналы сегментации, что эквивалентно надеванию на ИИ «очков высокой четкости», позволяя ИИ четко видеть каждый пиксель цели!
В частности, SegVG использует «многоуровневый многозадачный кодер-декодер». Название звучит сложно, но на самом деле вы можете думать о нем как о сверхсложном «микроскопе», который содержит запросы на регрессию и несколько запросов на сегментацию. Проще говоря, разные «линзы» используются для выполнения задач регрессии ограничивающего прямоугольника и сегментации соответственно, и цель неоднократно наблюдается для извлечения более точной информации.
Еще более мощным является то, что SegVG также представляет «модуль троичного выравнивания», который эквивалентен оснащению ИИ «переводчиком» для решения проблемы «языкового барьера» между параметрами предварительного обучения модели и внедрением запроса. Благодаря механизму тройного внимания этот «переводчик» может «переводить» запросы, текст и визуальные функции в один и тот же канал, позволяя ИИ лучше понимать целевую информацию.
Каков эффект SegVG? Эксперты провели эксперименты на пяти часто используемых наборах данных и обнаружили, что производительность SegVG превосходит многие традиционные алгоритмы, особенно в двух пресловутых «трудностях» RefCOCO+ и RefCOCOg. «На наборе данных SegVG достиг результатов! прорывные результаты!
Помимо точного позиционирования, SegVG также может выводить оценку достоверности прогнозов модели. Проще говоря, ИИ расскажет вам, насколько он уверен в своих суждениях. Это очень важно в практических приложениях. Например, если вы хотите использовать ИИ для идентификации медицинских изображений, если достоверность ИИ невысока, вам придется просмотреть его вручную, чтобы избежать ошибочного диагноза.
Открытый исходный код SegVG является важным преимуществом для всей области видения искусственного интеллекта. Я верю, что все больше и больше разработчиков и исследователей присоединятся к лагерю SegVG в будущем, чтобы совместно продвигать разработку технологии ИИ-видения!
Адрес статьи: https://arxiv.org/pdf/2407.03200.
Ссылка на код: https://github.com/WeitaiKang/SegVG/tree/main
В целом, появление SegVG предоставляет новые идеи и методы для точного позиционирования целей в области видения искусственного интеллекта, а его открытый исходный код также предоставляет разработчикам ценные ресурсы для обучения и исследований. Я считаю, что будущее развитие SegVG окажет глубокое влияние на технологию искусственного интеллекта и заслуживает нашего постоянного внимания!