Appleは、携帯電話、タブレット、コンピューター、テレビなどのマルチスクリーン時代のますます複雑になっているインターフェイスの相互作用に直面して、さまざまなプラットフォームのユーザーインターフェイスの理解を統合することを目的とした強力なUI理解モデルFerret-UI2を立ち上げました。 Ferret-UI2は、単純なアップグレードではなく、クロスプラットフォーム機能を備えた新しいモデルです。その中心的な利点は、マルチプラットフォーム、動的高解像度の画像コーディングテクノロジー、およびGPT-4Oベースの「視覚的なキュー」技術をサポートしており、Ferret-UI2がUIの知覚とタスク処理機能の両方で重要になります。
携帯電話、タブレット、コンピューター、テレビは、より多くの画面とより複雑な操作を持っています。
これは自慢ではありません。Ferret-Ui2の目標は、iPhone、Android、iPad、Webページ、Apple TVなど、さまざまなプラットフォームでユーザーインターフェイスを理解できることです。
Ferret-UI2のハイライトは、複数のプラットフォームのサポートです。モバイルプラットフォームに限定されたFerret-UIとは異なり、Ferret-UI2は、タブレット、Webページ、スマートテレビなどのさまざまなデバイスのUI画面を理解できます。このマルチプラットフォームサポートにより、今日の多様なデバイスエコシステムに適応し、ユーザーに幅広いアプリケーションシナリオを提供できます。
UIの知覚を改善するために、Ferret-UI2は動的高解像度の画像コーディングテクノロジーを導入し、「Adaptive Grid」と呼ばれる拡張方法を採用しました。このようにして、Ferret-UI2はUIスクリーンショットの元の解像度で知覚を維持することができ、それにより視覚的要素とその関係をより正確に識別できます。
さらに、Ferret-UI2は高品質のトレーニングデータを使用して、基本的および高度なタスクを学習します。 基本的なタスクの場合、Ferret-UI2は簡単な参照と配置データをダイアログ形式に変換し、モデルがさまざまなUI画面の基本的な理解を確立できるようにします。 ユーザーエクスペリエンスに焦点を当てた高度なタスクの場合、Ferret-UI2はGPT-4Oベースの「Tag Set Visual Prompt」テクノロジーを使用してトレーニングデータを生成し、以前のメソッドの単純なクリックをシングルステップユーザーセンターの相互作用に置き換えます。命令。
Ferret-UI2のパフォーマンスを評価するために、研究者は、各プラットフォームの6つの基本タスクと3つの高度なタスクを含む5つのプラットフォームをカバーする45のベンチマークを構築しました。 さらに、ガイドやGUI世界などのパブリックベンチマークも使用しました。 結果は、Ferret-UI2がすべてのテストベンチマーク、特に高度なタスクの大幅な進歩により、Ferret-UIよりも優れていることを示しており、クロスプラットフォームUI理解タスクの処理における汎用性を示しています。
アブレーションの研究により、Ferret-UI2アーキテクチャの改善とデータセットの改善の両方がパフォーマンスの改善に貢献し、より挑戦的なタスクに対する新しいデータセットの影響がより大きく貢献することがさらに示されています。 さらに、Ferret-UI2は、特にiPhone、iPad、およびAndroidプラットフォーム間の優れた一般化機能で、クロスプラットフォーム転送学習でもうまく機能しました。
モデルアドレス:https://huggingface.co/jadechoghari/ferret-ui-llama8b
紙の住所:https://arxiv.org/pdf/2410.18967
要するに、Ferret-UI2は、強力なクロスプラットフォームUI理解機能と大幅なパフォーマンスの改善により、将来、よりスマートで便利なヒューマンコンピューターの相互作用の新しい可能性を提供します。 そのオープンソースモデルと紙は、さらなる研究とアプリケーションのための貴重なリソースも提供します。