Il y a de plus en plus d'écrans sur les téléphones mobiles, les tablettes, les ordinateurs et les téléviseurs, et les opérations deviennent de plus en plus complexes. Cela vous éblouit-il ? Apple a récemment lancé une bombe royale - Ferret-UI2, un modèle de compréhension d'interface utilisateur super puissant, prétendant unifier le monde !
Ce n'est pas une vantardise, le but de Ferret-UI2 est de devenir un véritable guerrier de l'hexagone, capable de comprendre l'interface utilisateur sur diverses plateformes, que ce soit iPhone, Android, iPad, web ou AppleTV, il peut facilement gagner.
L'un des points forts de Ferret-UI2 est sa prise en charge multiplateforme. Contrairement à Ferret-UI, qui est limité aux plates-formes mobiles, Ferret-UI2 est capable de comprendre les écrans d'interface utilisateur de divers appareils tels que les tablettes, les pages Web et les téléviseurs intelligents. Cette prise en charge multiplateforme lui permet de s'adapter à la diversité de l'écosystème des appareils d'aujourd'hui et d'offrir aux utilisateurs un plus large éventail de scénarios d'application.
Afin d'améliorer la perception de l'interface utilisateur, Ferret-UI2 introduit une technologie de codage d'image dynamique haute résolution et adopte une méthode d'amélioration appelée « Adaptive Grid ». Grâce à cette approche, Ferret-UI2 est capable de maintenir la perception à la résolution native des captures d'écran de l'interface utilisateur, permettant une reconnaissance plus précise des éléments visuels et de leurs relations.
De plus, Ferret-UI2 exploite des données de formation de haute qualité pour apprendre des tâches de base et avancées. Pour les tâches de base, Ferret-UI2 convertit les données simples de référence et de positionnement sous forme conversationnelle, permettant au modèle de développer une compréhension de base des différents écrans d'interface utilisateur. Pour les tâches avancées qui se concentrent davantage sur l'expérience utilisateur, Ferret-UI2 utilise la technologie « marqueurs visuels » basée sur GPT-4o pour générer des données d'entraînement et remplace les simples clics de la méthode précédente par des instructions centrées sur l'utilisateur en une seule étape.
Pour évaluer les performances de Ferret-UI2, les chercheurs ont construit 45 benchmarks couvrant cinq plateformes, dont 6 tâches de base et 3 tâches avancées pour chaque plateforme. De plus, ils ont utilisé des références publiques telles que GUIDE et GUI-World. Les résultats montrent que Ferret-UI2 surpasse Ferret-UI dans tous les benchmarks testés, en obtenant notamment des améliorations significatives sur les tâches avancées, démontrant sa polyvalence dans la gestion des tâches de compréhension de l'interface utilisateur multiplateforme.
Les études d'ablation montrent en outre que les améliorations architecturales et celles des ensembles de données dans Ferret-UI2 contribuent à l'amélioration des performances, le nouvel ensemble de données ayant un impact plus significatif sur des tâches plus difficiles. De plus, Ferret-UI2 fonctionne également bien dans l'apprentissage par transfert multiplateforme, montrant notamment de bonnes capacités de généralisation entre les plateformes iPhone, iPad et Android.
Adresse du modèle : https://huggingface.co/jadechoghari/Ferret-UI-Llama8b
Adresse papier : https://arxiv.org/pdf/2410.18967