面对手机、平板、电脑、电视等多屏时代日益复杂的界面交互,苹果公司推出了其强大的UI理解模型Ferret-UI2,旨在统一不同平台的用户界面理解。 Ferret-UI2并非简单的升级,而是具备跨平台能力的全新模型,它能够理解来自iPhone、Android、iPad、网页和Apple TV等各种设备的UI屏幕,极大地扩展了应用场景。其核心优势在于对多平台的支持、动态高分辨率图像编码技术以及基于GPT-4o的“标记集视觉提示”技术,这些技术使得Ferret-UI2在UI感知能力和任务处理能力上均有显着提升。
手机、平板、电脑、电视,屏幕越来越多,操作越来越复杂,是不是让你眼花缭乱?苹果最近丢出一个王炸——Ferret-UI2,一个超强UI 理解模型,号称要统一江湖!
这可不是吹牛,Ferret-UI2的目标是成为一个真正的六边形战士,能在各种平台上理解用户界面,不管是iPhone、Android、iPad、网页还是AppleTV,它都能轻松拿下。
Ferret-UI2的一大亮点是它对多平台的支持。与仅限于移动平台的Ferret-UI不同,Ferret-UI2能够理解来自平板电脑、网页和智能电视等各种设备的UI屏幕。这种多平台支持使其能够适应当今多样化的设备生态系统,为用户提供更广泛的应用场景。
为了提高UI感知能力,Ferret-UI2引入了动态高分辨率图像编码技术,并采用了一种名为“自适应网格”的增强方法。通过这种方法,Ferret-UI2能够在UI屏幕截图的原始分辨率下保持感知能力,从而更准确地识别视觉元素和它们之间的关系。
此外,Ferret-UI2还利用高质量的训练数据来学习基本和高级任务。 对于基本任务,Ferret-UI2将简单的引用和定位数据转换为对话形式,使模型能够对各种UI屏幕建立基本理解。 对于更侧重于用户体验的高级任务,Ferret-UI2采用了**基于GPT-4o的“标记集视觉提示”**技术来生成训练数据,并用单步用户中心交互取代了之前方法中简单的点击指令。
为了评估Ferret-UI2的性能,研究人员构建了涵盖五个平台的45个基准测试,包括每个平台的6个基本任务和3个高级任务。 此外,他们还使用了GUIDE和GUI-World等公开基准测试。 结果表明,Ferret-UI2在所有测试的基准测试中都优于Ferret-UI,特别是在高级任务上取得了显着的进步,证明了其在处理跨平台UI理解任务方面的多功能性。
消融研究进一步表明,Ferret-UI2的架构改进和数据集改进都对性能提升做出了贡献,其中新数据集对更具挑战性的任务的影响更为显着。 此外,Ferret-UI2在跨平台迁移学习方面也表现出色,特别是在iPhone、iPad和Android平台之间表现出良好的泛化能力。
模型地址:https://huggingface.co/jadechoghari/Ferret-UI-Llama8b
论文地址:https://arxiv.org/pdf/2410.18967
总而言之,Ferret-UI2凭借其强大的跨平台UI理解能力和显着的性能提升,为未来更智能、更便捷的人机交互提供了新的可能性。 其开源的模型和论文也为进一步的研究和应用提供了valuable 资源。