苹果放大招！Ferret-UI 2来了， UI 理解力直接拉满！ - AI文章

作者：Eve Cole 更新时间：2025-02-13 08:32:01

面对手机、平板、电脑、电视等多屏时代日益复杂的界面交互，苹果公司推出了其强大的UI理解模型Ferret-UI2，旨在统一不同平台的用户界面理解。 Ferret-UI2并非简单的升级，而是具备跨平台能力的全新模型，它能够理解来自iPhone、Android、iPad、网页和Apple TV等各种设备的UI屏幕，极大地扩展了应用场景。其核心优势在于对多平台的支持、动态高分辨率图像编码技术以及基于GPT-4o的“标记集视觉提示”技术，这些技术使得Ferret-UI2在UI感知能力和任务处理能力上均有显着提升。

手机、平板、电脑、电视，屏幕越来越多，操作越来越复杂，是不是让你眼花缭乱?苹果最近丢出一个王炸——Ferret-UI2，一个超强UI 理解模型，号称要统一江湖!

这可不是吹牛，Ferret-UI2的目标是成为一个真正的六边形战士，能在各种平台上理解用户界面，不管是iPhone、Android、iPad、网页还是AppleTV，它都能轻松拿下。

Ferret-UI2的一大亮点是它对多平台的支持。与仅限于移动平台的Ferret-UI不同，Ferret-UI2能够理解来自平板电脑、网页和智能电视等各种设备的UI屏幕。这种多平台支持使其能够适应当今多样化的设备生态系统，为用户提供更广泛的应用场景。

为了提高UI感知能力，Ferret-UI2引入了动态高分辨率图像编码技术，并采用了一种名为“自适应网格”的增强方法。通过这种方法，Ferret-UI2能够在UI屏幕截图的原始分辨率下保持感知能力，从而更准确地识别视觉元素和它们之间的关系。

此外，Ferret-UI2还利用高质量的训练数据来学习基本和高级任务。对于基本任务，Ferret-UI2将简单的引用和定位数据转换为对话形式，使模型能够对各种UI屏幕建立基本理解。对于更侧重于用户体验的高级任务，Ferret-UI2采用了**基于GPT-4o的“标记集视觉提示”**技术来生成训练数据，并用单步用户中心交互取代了之前方法中简单的点击指令。

为了评估Ferret-UI2的性能，研究人员构建了涵盖五个平台的45个基准测试，包括每个平台的6个基本任务和3个高级任务。此外，他们还使用了GUIDE和GUI-World等公开基准测试。结果表明，Ferret-UI2在所有测试的基准测试中都优于Ferret-UI，特别是在高级任务上取得了显着的进步，证明了其在处理跨平台UI理解任务方面的多功能性。

消融研究进一步表明，Ferret-UI2的架构改进和数据集改进都对性能提升做出了贡献，其中新数据集对更具挑战性的任务的影响更为显着。此外，Ferret-UI2在跨平台迁移学习方面也表现出色，特别是在iPhone、iPad和Android平台之间表现出良好的泛化能力。

模型地址：https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

论文地址：https://arxiv.org/pdf/2410.18967

总而言之，Ferret-UI2凭借其强大的跨平台UI理解能力和显着的性能提升，为未来更智能、更便捷的人机交互提供了新的可能性。其开源的模型和论文也为进一步的研究和应用提供了valuable 资源。