携帯電話、タブレット、コンピューター、テレビの画面はますます増えており、操作はますます複雑になっています。Apple が最近発表した超強力な UI 理解モデル、Ferret-UI2 に目がくらみますか?世界を統一すると主張しています!
これは自慢ではありません。Ferret-UI2 の目標は、iPhone、Android、iPad、Web、AppleTV など、さまざまなプラットフォームのユーザー インターフェイスを理解し、簡単に勝つことができる真の六角戦士になることです。
Ferret-UI2 のハイライトの 1 つは、マルチプラットフォームのサポートです。モバイルプラットフォームに限定された Ferret-UI とは異なり、Ferret-UI2 はタブレット、Web ページ、スマート TV などのさまざまなデバイスの UI 画面を理解できます。このマルチプラットフォームのサポートにより、今日の多様なデバイス エコシステムに適応し、より幅広いアプリケーション シナリオをユーザーに提供できるようになります。
Ferret-UI2では、UIの知覚を向上させるために、動的な高解像度画像符号化技術を導入し、「アダプティブグリッド」と呼ばれる拡張手法を採用しています。このアプローチにより、Ferret-UI2 は UI スクリーンショットのネイティブ解像度での認識を維持することができ、視覚要素とその関係をより正確に認識できるようになります。
さらに、Ferret-UI2 は高品質のトレーニング データを活用して、基本的なタスクと高度なタスクを学習します。 基本的なタスクの場合、Ferret-UI2 は単純な参照データと位置データを会話形式に変換し、モデルがさまざまな UI 画面の基本的な理解を構築できるようにします。 ユーザーエクスペリエンスを重視した高度なタスクの場合、Ferret-UI2はGPT-4oベースの「マーカーセットビジュアルキュー」テクノロジーを使用してトレーニングデータを生成し、以前の方法の単純なクリックをシングルステップのユーザー中心のインタラクションに置き換えます。
Ferret-UI2 のパフォーマンスを評価するために、研究者らは 5 つのプラットフォームをカバーする 45 のベンチマークを構築しました。その中には、各プラットフォームの 6 つの基本タスクと 3 つの高度なタスクが含まれます。 さらに、GUIDE や GUI-World などの公開ベンチマークも使用しました。 結果は、Ferret-UI2 が、テストされたすべてのベンチマークで Ferret-UI を上回り、特に高度なタスクで大幅な改善を達成し、クロスプラットフォームの UI 理解タスクの処理における多用途性を実証したことを示しています。
さらに、アブレーション研究では、Ferret-UI2 のアーキテクチャの改善とデータセットの改善の両方がパフォーマンスの向上に貢献し、新しいデータセットがより困難なタスクに大きな影響を与えることが示されています。 さらに、Ferret-UI2 はクロスプラットフォームの転移学習でも優れたパフォーマンスを発揮し、特に iPhone、iPad、Android プラットフォーム間で優れた汎化機能を示します。
モデルアドレス: https://huggingface.co/jadechoghari/Ferret-UI-Llama8b
論文アドレス: https://arxiv.org/pdf/2410.18967