Экранов на мобильных телефонах, планшетах, компьютерах и телевизорах становится все больше, а операции становятся все более и более сложными. Вас это ослепляет? Apple недавно выпустила королевскую бомбу — Ferret-UI2, сверхмощную модель понимания пользовательского интерфейса. претендуя на объединение мира!
Это не хвастовство, цель Ferret-UI2 — стать настоящим шестиугольным воином, способным понимать пользовательский интерфейс на различных платформах, будь то iPhone, Android, iPad, Интернет или AppleTV, он может легко победить.
Одной из особенностей Ferret-UI2 является поддержка нескольких платформ. В отличие от Ferret-UI, который доступен только на мобильных платформах, Ferret-UI2 способен понимать экраны пользовательского интерфейса различных устройств, таких как планшеты, веб-страницы и смарт-телевизоры. Эта многоплатформенная поддержка позволяет ему адаптироваться к современной разнообразной экосистеме устройств и предоставлять пользователям более широкий спектр сценариев применения.
Чтобы улучшить восприятие пользовательского интерфейса, Ferret-UI2 представляет технологию динамического кодирования изображений с высоким разрешением и использует метод улучшения, называемый «Адаптивная сетка». Благодаря такому подходу Ferret-UI2 способен поддерживать восприятие с исходным разрешением скриншотов пользовательского интерфейса, что позволяет более точно распознавать визуальные элементы и их взаимоотношения.
Кроме того, Ferret-UI2 использует высококачественные данные обучения для изучения базовых и сложных задач. Для базовых задач Ferret-UI2 преобразует простые справочные данные и данные позиционирования в диалоговую форму, позволяя модели получить базовое представление о различных экранах пользовательского интерфейса. Для сложных задач, которые больше ориентированы на взаимодействие с пользователем, Ferret-UI2 использует технологию «визуальных подсказок набора маркеров» на основе GPT-4o для генерации обучающих данных и заменяет простые щелчки предыдущего метода одношаговыми инструкциями по взаимодействию, ориентированным на пользователя.
Чтобы оценить производительность Ferret-UI2, исследователи построили 45 тестов, охватывающих пять платформ, включая 6 базовых задач и 3 расширенных задачи для каждой платформы. Кроме того, они использовали общедоступные тесты, такие как GUIDE и GUI-World. Результаты показывают, что Ferret-UI2 превосходит Ferret-UI во всех протестированных тестах, особенно достигая значительных улучшений в сложных задачах, демонстрируя свою универсальность в решении задач понимания кроссплатформенного пользовательского интерфейса.
Исследования абляции также показывают, что как архитектурные улучшения, так и улучшения набора данных в Ferret-UI2 способствуют повышению производительности, причем новый набор данных оказывает более существенное влияние на более сложные задачи. Кроме того, Ferret-UI2 также хорошо справляется с межплатформенным переносом обучения, особенно демонстрируя хорошие возможности обобщения между платформами iPhone, iPad и Android.
Адрес модели: https://huggingface.co/jadechoghari/Ferret-UI-Llama8b
Адрес статьи: https://arxiv.org/pdf/2410.18967.