С быстрым развитием искусственного интеллекта легкая и эффективная технология понимания пользовательского интерфейса стала ключом к приложениям ИИ. В недавно опубликованном исследовательском документе Apple представила новую архитектуру под названием UI-JEPA, целью которой является решение проблемы эффективного понимания пользовательского интерфейса на легких устройствах. Эта технология не только сохраняет высокую производительность, но и значительно снижает требования к вычислительным ресурсам, предоставляя новые возможности для запуска приложений искусственного интеллекта на устройствах с ограниченными ресурсами. Ожидается, что появление UI-JEPA будет способствовать широкой популяризации более удобных и частных приложений ИИ.
Поскольку технология искусственного интеллекта продолжает развиваться, понимание пользовательского интерфейса (UI) становится ключевой проблемой при создании интуитивно понятных и полезных приложений ИИ. Недавно исследователи Apple представили UI-JEPA в новой статье — архитектуру, предназначенную для облегчения понимания пользовательского интерфейса на стороне устройства, которая не только поддерживает высокую производительность, но и значительно снижает затраты на понимание требований к расчетам пользовательского интерфейса.
Проблема понимания пользовательского интерфейса заключается в необходимости обработки кросс-модальных функций, включая изображения и естественный язык, для фиксации временных отношений в последовательностях пользовательского интерфейса. Хотя мультимодальные модели большого языка (MLLM), такие как Anthropic Claude3.5Sonnet и OpenAI GPT-4Turbo, добились прогресса в персонализированном планировании, эти модели требуют обширных вычислительных ресурсов, огромных размеров моделей и приводят к высокой задержке. Не подходят для решений для легких устройств, требующих низкой производительности. задержка и повышенная конфиденциальность.
Пример набора данных IIT и IIW UI-JEPA. Источник изображения: arXiv.
Для дальнейшего продвижения исследований в области понимания пользовательского интерфейса исследователи представляют два новых мультимодальных набора данных и тестов: «Намерения в дикой природе» (IIW) и «Намерения в приручении» (IIT). IIW фиксирует открытые последовательности действий пользовательского интерфейса с неопределенными намерениями пользователя, в то время как IIT фокусируется на общих задачах с более ясными намерениями.
Оценка производительности UI-JEPA в новых тестах показывает, что он превосходит другие модели видеокодеров при настройке нескольких кадров и достигает производительности, сопоставимой с более крупными закрытыми моделями. Исследователи обнаружили, что объединение текста, извлеченного из пользовательского интерфейса, с использованием оптического распознавания символов (OCR) еще больше повысило производительность UI-JEPA.
Потенциальное использование модели UI-JEPA включает создание автоматизированных циклов обратной связи для агентов ИИ, позволяющих им постоянно учиться на основе взаимодействия без вмешательства человека, а также интеграцию UI-JEPA в приложения, предназначенные для отслеживания намерений пользователей в различных приложениях и режимах в рамках агентства. .
Модель UI-JEPA от Apple, похоже, хорошо подходит для Apple Intelligence, набора легких генеративных инструментов искусственного интеллекта, предназначенных для того, чтобы сделать устройства Apple более умными и эффективными. Учитывая внимание Apple к конфиденциальности, низкая стоимость и дополнительная эффективность модели UI-JEPA могут дать ее помощнику с искусственным интеллектом преимущество перед другими помощниками, которые полагаются на облачные модели.
Появление UI-JEPA открыло новые возможности для легких приложений искусственного интеллекта на стороне устройства. Его преимущества в защите конфиденциальности и эффективных вычислениях открывают широкие перспективы применения в будущей разработке искусственного интеллекта и заслуживают постоянного внимания.