Столкнувшись со все более сложными интерфейсными взаимодействиями в многоэкранную эпоху, такую как мобильные телефоны, планшеты, компьютеры и телевизоры, Apple запустила свою мощную модель понимания пользовательского интерфейса Ferret-UI2, направленную на объединение понимания пользовательского интерфейса различных платформ. Ferret-UI2-это не простое обновление, а новая модель с кроссплатформенными возможностями. Его основные преимущества заключаются в поддержке многоплатформенных, динамических технологий кодирования изображений с высоким разрешением и технологии на основе GPT-4O «Рыночные визуальные сигналы», которые делают Ferret-UI2 значимыми как в возможностях восприятия пользовательского интерфейса, так и в возможностях обработки задач.
Мобильные телефоны, планшеты, компьютеры и телевизоры имеют все больше и больше экранов и более сложные операции.
Это не хвастовство.
Основным моментом Ferret-UI2 является поддержка нескольких платформ. В отличие от Ferret-UI, который ограничен мобильными платформами, Ferret-UI2 может понимать экраны пользовательского интерфейса с различных устройств, таких как планшеты, веб-страницы и интеллектуальные телевизоры. Эта многоплатформенная поддержка позволяет ей адаптироваться к сегодняшней разнообразной экосистеме устройства и предоставляет пользователям более широкий спектр сценариев приложений.
Чтобы улучшить восприятие пользовательского интерфейса, Ferret-UI2 представил динамическую технологию кодирования изображений с высоким разрешением и принял метод улучшения, называемый «адаптивная сетка». Таким образом, Ferret-UI2 способен поддерживать восприятие при первоначальном разрешении экрана пользовательского интерфейса, тем самым более точно определяя визуальные элементы и их отношения.
Кроме того, Ferret-UI2 также использует высококачественные учебные данные для изучения основных и передовых задач. Для основных задач Ferret-UI2 преобразует простые ссылки и позиционирование данных в форматы диалога, позволяя модели установить базовое понимание различных экранов пользовательского интерфейса. Для расширенных задач, которые больше фокусируются на пользовательском опыте, Ferret-UI2 использует технологию на основе GPT-4O «Набор визуальных подсказков» для генерации обучающих данных и заменяет простые клики в предыдущем методе на одноцентровое взаимодействие пользователя-центр. инструкция
Чтобы оценить производительность Ferret-UI2, исследователи построили 45 тестов, охватывающих пять платформ, в том числе 6 основных задач и 3 передовых задач для каждой платформы. Кроме того, они также использовали общественные тесты, такие как Guide и GUI-мир. Результаты показывают, что Ferret-UI2 опережает Ferret-UI во всех испытательных критериях, особенно с значительными достижениями в продвинутых задачах, демонстрируя ее универсальность при обработке кроссплатформенных задач понимания пользовательского интерфейса.
Исследования абляции также показывают, что как улучшение архитектуры Ferret-UI2, так и улучшение наборов данных способствуют улучшению производительности, с более значительным влиянием новых наборов данных на более сложные задачи. Кроме того, Ferret-UI2 также хорошо показал кроссплатформенное обучение передачи, особенно в хороших возможностях обобщения между платформами iPhone, iPad и Android.
Адрес модели: https://huggingface.co/jadechoghari/ferret-ui-lalama8b
Бумажный адрес: https://arxiv.org/pdf/2410.18967
Короче говоря, Ferret-UI2 предоставляет новые возможности для более умного и удобного взаимодействия человека с компьютером в будущем с его мощными кроссплатформенными возможностями понимания пользовательского интерфейса и значительным улучшением производительности. Его модель и статья с открытым исходным кодом также предоставляют ценные ресурсы для дальнейших исследований и применения.