Face aux interactions d'interface de plus en plus complexes dans l'ère multi-écrans telles que les téléphones mobiles, les tablettes, les ordinateurs et les téléviseurs, Apple a lancé son puissant modèle de compréhension de l'interface utilisateur, Ferret-UI2, visant à unifier l'interface utilisateur compréhension des différentes plateformes. Ferret-UI2 n'est pas une mise à niveau simple, mais un nouveau modèle avec des capacités de plate-forme multiples. Ses avantages principaux sont en faveur de la technologie de codage d'images à haute résolution dynamique et de la technologie de codage d'image à haute résolution et des indices visuels "de marché" basés sur GPT-4O, qui rendent Ferret-UI2 dans les capacités de perception de l'interface utilisateur et de traitement des tâches.
Les téléphones mobiles, les tablettes, les ordinateurs et les téléviseurs ont de plus en plus d'écrans et des opérations plus complexes.
Ce n'est pas un vantardise.
Un point culminant de Ferret-UI2 est sa prise en charge de plusieurs plates-formes. Contrairement à Ferret-UI, qui est limité aux plates-formes mobiles, Ferret-UI2 est capable de comprendre les écrans d'interface utilisateur de divers appareils tels que les tablettes, les pages Web et les téléviseurs intelligents. Ce support multiplateforme lui permet de s'adapter à l'écosystème de l'appareil diversifié d'aujourd'hui et de fournir aux utilisateurs une gamme plus large de scénarios d'application.
Pour améliorer la perception de l'interface utilisateur, Ferret-UI2 a introduit la technologie de codage d'image à haute résolution dynamique et a adopté une méthode d'amélioration appelée "grille adaptative". De cette façon, Ferret-UI2 est capable de maintenir la perception de la résolution originale de la capture d'écran de l'interface utilisateur, identifiant ainsi plus précisément les éléments visuels et leurs relations.
De plus, Ferret-UI2 utilise également des données de formation de haute qualité pour apprendre des tâches de base et avancées. Pour les tâches de base, Ferret-UI2 convertit des données de référence et de positionnement simples en formats de dialogue, permettant au modèle d'établir une compréhension de base de divers écrans d'interface utilisateur. Pour les tâches avancées qui se concentrent davantage sur l'expérience utilisateur, Ferret-UI2 utilise la technologie "Tag Set Visual Invite" basée sur GPT-4O pour générer des données de formation et remplace les clics simples dans la méthode précédente avec une interaction utilisateur à un seul pas. instruction.
Pour évaluer les performances de Ferret-UI2, les chercheurs ont construit 45 repères couvrant cinq plates-formes, dont 6 tâches de base et 3 tâches avancées pour chaque plate-forme. De plus, ils ont également utilisé des repères publics tels que Guide et GUI-monde. Les résultats montrent que Ferret-UI2 surpasse Ferret-UI dans toutes les références de test, en particulier avec des progrès importants dans les tâches avancées, démontrant sa polyvalence dans la gestion des tâches de compréhension de l'interface utilisateur multiplateforme.
Les études d'ablation montrent en outre que les améliorations de l'architecture Ferret-UI2 et les améliorations de l'ensemble de données contribuent aux améliorations des performances, avec l'impact de nouveaux ensembles de données sur des tâches plus difficiles de manière plus importante. De plus, Ferret-UI2 a également bien fonctionné dans l'apprentissage transversal de transfert, en particulier dans les bonnes capacités de généralisation entre les plates-formes iPhone, iPad et Android.
Adresse du modèle: https://huggingface.co/jadechoghari/ferret-ui-lama8b
Adresse papier: https://arxiv.org/pdf/2410.18967
En bref, Ferret-UI2 offre de nouvelles possibilités pour l'interaction humaine-ordinateur plus intelligente et plus pratique à l'avenir avec ses puissantes capacités de compréhension de l'interface utilisateur multiplateforme et d'améliorations significatives des performances. Son modèle open source et son article fournissent également des ressources précieuses pour des recherches et des applications supplémentaires.