OmniParser, инструмент анализа содержимого экрана, недавно выпущенный Microsoft, на этой неделе возглавил список самых популярных моделей на платформе искусственных технологий с открытым исходным кодом HuggingFace. По словам Клема Деланга, соучредителя и генерального директора HuggingFace, это первый инструмент синтаксического анализа в этой области, получивший эту награду.
OmniParser в основном используется для преобразования снимков экрана в структурированные данные, чтобы помочь другим системам лучше понимать и обрабатывать графические пользовательские интерфейсы. В инструменте используется многомодельный метод совместной работы: YOLOv8 отвечает за определение положения интерактивных элементов, BLIP-2 анализирует использование элементов и оснащен модулем оптического распознавания символов для извлечения текстовой информации, что в конечном итоге обеспечивает комплексный анализ. интерфейса.
Этот инструмент с открытым исходным кодом обладает широкой совместимостью и поддерживает множество основных моделей видения. Менеджер по исследованиям партнеров Microsoft Ахмед Авадалла подчеркнул, что открытое сотрудничество имеет решающее значение для содействия технологическому развитию, и OmniParser является продуктом реализации этой концепции.
В настоящее время технологические гиганты изложили свои планы в области экранного взаимодействия. Anthropic выпустила решение с закрытым исходным кодом под названием Computer Use, а Apple запустила Ferret-UI для мобильных интерфейсов. Напротив, OmniParser демонстрирует уникальные преимущества благодаря своей кроссплатформенной универсальности.
Однако OmniParser по-прежнему сталкивается с некоторыми техническими проблемами, такими как повторяющееся распознавание значков и точное позиционирование в сценариях перекрытия текста. Но сообщество разработчиков ПО с открытым исходным кодом в целом считает, что чем больше разработчиков будут участвовать в улучшениях, тем скорее эти проблемы будут решены.
Быстрая популярность OmniParser показывает острую потребность разработчиков в универсальных инструментах взаимодействия с экраном, а также указывает на то, что эта область может привести к быстрому развитию.
Адрес: https://microsoft.github.io/OmniParser/