Microsoft запускает новую модель OmniParser: позвольте GPT-4V за секунды понять содержимое скриншотов и понять, куда указывать

Автор：Eve Cole Время обновления：2024-12-01 14:00:01

GPT-4V, этот артефакт, известный как «смотреть на картинки и говорить», подвергался критике за отсутствие понимания графических интерфейсов. Это похоже на человека с «экранной слепотой», который часто нажимает не те кнопки, что сводит с ума. Однако ожидается, что модель OmniParser, выпущенная Microsoft, полностью решит эту проблему! OmniParser похож на «переводчик экрана», преобразующий снимки экрана в простой для понимания структурированный язык GPT-4V, что делает «зрение» GPT-4V более острым. Редактор Downcodes поможет вам глубже понять эту волшебную модель, увидеть, как она помогает GPT-4V преодолеть дефект «слепоты глаз» и удивительную технологию, стоящую за ней.

Вы еще помните GPT-4V, артефакт, который известен как «смотреть картинки и говорить»? Он может понимать содержание картинок и выполнять задачи на основе картинок. Это благо для ленивых людей! слабость: у него не очень хорошее зрение !

Представьте, что вы просите GPT-4V нажать за вас кнопку, но он щелкает повсюду, как «экранная шторка». Разве это не безумие?

Сегодня я представлю вам артефакт, который может улучшить внешний вид GPT-4V — OmniParser. Это новая модель, выпущенная Microsoft, призванная решить проблему автоматического взаимодействия графических пользовательских интерфейсов (GUI).

Что делает OmniParser?

Проще говоря, OmniParser — это «переводчик экрана», который может анализировать снимки экрана на «структурированный язык», понятный GPT-4V. OmniParser сочетает в себе точно настроенную интерактивную модель обнаружения значков, точно настроенную модель описания значков и выходные данные модуля OCR.

Эта комбинация создает структурированное DOM-подобное представление пользовательского интерфейса, а также снимки экрана, закрывающие ограничивающие рамки потенциально взаимодействующих элементов. Исследователи сначала создали интерактивный набор данных для обнаружения значков, используя популярные веб-страницы и наборы данных описания значков. Эти наборы данных используются для тонкой настройки специализированных моделей: модели обнаружения для анализа интерактивных областей на экране и модели описания для извлечения функциональной семантики обнаруженных элементов.

В частности, OmniParser будет:

Определите все интерактивные значки и кнопки на экране, пометьте их прямоугольниками и присвойте каждому блоку уникальный идентификатор.

Используйте текст для описания функции каждого значка, например «Настройки» и «Свернуть». Распознавайте текст на экране и извлекайте его.

Таким образом, GPT-4V может четко знать, что отображается на экране и что делает каждая вещь. Просто сообщите ему идентификатор кнопки, которую вы хотите нажать.

Насколько хорош OmniParser?

Исследователи использовали различные тесты для тестирования OmniParser и обнаружили, что он действительно может сделать GPT-4V «лучше»!

В тесте ScreenSpot OmniParser значительно улучшил точность GPT-4V, даже превзойдя некоторые модели, специально подготовленные для работы с графическими интерфейсами. Например, в наборе данных ScreenSpot OmniParser повышает точность на 73 %, превосходя по производительности модели, основанные на базовом анализе HTML. Примечательно, что включение локальной семантики элементов пользовательского интерфейса привело к значительному повышению точности прогнозирования: значки GPT-4V были правильно помечены с 70,5% до 93,8% при использовании выходных данных OmniParser.

В тесте Mind2Web OmniParser улучшил производительность GPT-4V в задачах просмотра веб-страниц, а его точность даже превзошла GPT-4V, который использует информационную поддержку HTML.

В тесте AITW OmniParser значительно улучшил производительность GPT-4V в задачах навигации мобильного телефона.

Каковы недостатки OmniParser?

Хотя OmniParser очень мощный, у него также есть некоторые незначительные недостатки, такие как:

Столкнувшись с повторяющимися значками или текстом, легко запутаться , и чтобы их отличить, нужны более подробные описания.

Иногда рамка прорисовывается недостаточно точно , из-за чего GPT-4V щелкает в неправильном положении.

Интерпретация значков порой ошибочна и требует контекста для более точного описания.

Однако исследователи усердно работают над улучшением OmniParser и полагают, что он будет становиться все более мощным и в конечном итоге станет лучшим партнером GPT-4V!

Модельный опыт: https://huggingface.co/microsoft/OmniParser

Вход для бумаги: https://arxiv.org/pdf/2408.00203.

Официальное введение: https://www.microsoft.com/en-us/research/articles/omniparser-for-pure-vision-based-gui-agent/.

Выделять:

✨OmniParser может помочь GPT-4V лучше понимать содержимое экрана и точнее выполнять задачи.

OmniParser хорошо показал себя в различных тестах, доказав свою эффективность.

?️OmniParser еще есть области для улучшения, но есть надежда на будущее.

В целом, OmniParser вносит революционные улучшения во взаимодействие GPT-4V с графическим пользовательским интерфейсом. Несмотря на наличие некоторых недостатков, его потенциал огромен, и стоит с нетерпением ждать его будущего развития. Редактор Downcodes верит, что с постоянным развитием технологий OmniParser станет яркой звездой в области искусственного интеллекта!