手機、平板、電腦、電視,螢幕越來越多,操作越來越複雜,是不是讓你眼花撩亂?蘋果最近丟出一個王炸——Ferret-UI2,一個超強UI 理解模型,號稱要統一江湖!
這可不是吹牛,Ferret-UI2的目標是成為一個真正的六角形戰士,能在各種平台上理解使用者介面,不管是iPhone、Android、iPad、網頁還是AppleTV,它都能輕鬆拿下。
Ferret-UI2的一大亮點是它對多平台的支援。與僅限於行動平台的Ferret-UI不同,Ferret-UI2能夠理解來自平板電腦、網頁和智慧電視等各種裝置的UI螢幕。這種多平台支援使其能夠適應當今多樣化的設備生態系統,為用戶提供更廣泛的應用場景。
為了提高UI感知能力,Ferret-UI2引入了動態高解析度影像編碼技術,並採用了一種名為「自適應網格」的增強方法。透過這種方法,Ferret-UI2能夠在UI螢幕截圖的原始解析度下保持感知能力,從而更準確地識別視覺元素和它們之間的關係。
此外,Ferret-UI2也利用高品質的訓練資料來學習基本和進階任務。 對於基本任務,Ferret-UI2將簡單的引用和定位資料轉換為對話形式,使模型能夠對各種UI螢幕建立基本理解。 對於更專注於使用者體驗的高階任務,Ferret-UI2採用了**基於GPT-4o的「標記集視覺提示」**技術來產生訓練數據,並用單步驟使用者中心互動取代了先前方法中簡單的點擊指令。
為了評估Ferret-UI2的效能,研究人員建構了涵蓋五個平台的45個基準測試,包括每個平台的6個基本任務和3個高階任務。 此外,他們也使用了GUIDE和GUI-World等公開基準測試。 結果表明,Ferret-UI2在所有測試的基準測試中都優於Ferret-UI,特別是在高級任務上取得了顯著的進步,證明了其在處理跨平台UI理解任務方面的多功能性。
消融研究進一步表明,Ferret-UI2的架構改進和資料集改進都對效能提升做出了貢獻,其中新資料集對更具挑戰性的任務的影響更為顯著。 此外,Ferret-UI2在跨平台遷移學習方面也表現出色,特別是在iPhone、iPad和Android平台之間表現出良好的泛化能力。
模式位址:https://huggingface.co/jadechoghari/Ferret-UI-Llama8b
論文網址:https://arxiv.org/pdf/2410.18967