Технология позиционирования Visual Visual Target всегда сталкивалась с точностью за узкие места. Исследователи из Illinois Tech, Исследовательского института Cisco и Университета Центральной Флориды разработали структуру SEGVG для решения этой проблемы и создания AI «видение высокой четкости». Ядром SEGVG является обработка детализации на уровне пикселей, преобразующая информацию о ограниченной коробке в сигналы сегментации, точно так же, как ношение «очков высокой четкости» для ИИ, что позволяет четко идентифицировать каждый пиксель цели.
В области AI Vision позиционирование цели всегда было сложной проблемой. Традиционные алгоритмы похожи на «миопию», которая может примерно грузить цель с «кадрами», но не может увидеть детали внутри. Это как когда вы описываете человека другу и просто говорите о его или ее приблизительном росте и форме тела.
Чтобы решить эту проблему, группа Bigwigs из Технологического университета Иллинойса, Научно -исследовательского института Cisco и Университета Центральной Флориды разработала новую структуру визуального позиционирования под названием SEGVG, утверждая, что с тех пор позволил AI прощаться с «миопией»!
Основной секрет SEGVG: «На уровне пикселей» детали! SEGVG преобразует информацию о ограничивающей коробке в сигналы сегментации, что эквивалентно размещению «очков высокой четкости» на ИИ, позволяя ИИ четко видеть каждый пиксель цели!
В частности, SEGVG принимает «многоуровневый многозадачный энкодер-декодер». Название звучит сложно, но вы можете понять его как супер-определенный «микроскоп», содержащий запросы для регрессии и множественные запросы для сегментации. Проще говоря, он должен использовать разные «линзы» для выполнения задач регрессии и сегментации ограничивающей коробки, неоднократно соблюдать цель и извлекать более утонченную информацию.
Что еще более удивительно, так это то, что SEGVG также представил «модуль выравнивания тройного выравнивания», который эквивалентен для снабжения ИИ с «переводчиком» для специфического решения проблемы «языковой блокировки» между параметрами предварительного обучения модели и внедрением запросов. Благодаря механизму внимания, этот «переводчик» может «перевести» запрос, текст и визуальные функции в тот же канал, что позволяет ИИ лучше понять целевую информацию.
Каков эффект SEGVG? достиг результатов прорыва!
В дополнение к точному позиционированию, SEGVG также может вывести достоверную оценку, предсказанную моделью. Проще говоря, ИИ расскажет вам, как уверенно судить себя. Это очень важно в практических приложениях.
Открытый источник SEGVG является основным преимуществом для всей области AI Vision!
Бумажный адрес: https://arxiv.org/pdf/2407.03200
Ссылка на код: https://github.com/weitaikang/segvg/tree/main
Появление SEGVG знаменует собой значительный прогресс в технологии позиционирования AI Visual.