Há cada vez mais telas em telefones celulares, tablets, computadores e TVs, e as operações estão se tornando cada vez mais complexas. Você está deslumbrado? A Apple lançou recentemente uma bomba rei - Ferret-UI2, um modelo de compreensão de UI superpoderoso. reivindicando unificar o mundo!
Não é hora de se gabar, o objetivo do Ferret-UI2 é se tornar um verdadeiro guerreiro hexágono, capaz de entender a interface do usuário em diversas plataformas, seja iPhone, Android, iPad, web ou AppleTV, pode vencer facilmente.
Um dos destaques do Ferret-UI2 é o suporte multiplataforma. Ao contrário do Ferret-UI, que é limitado a plataformas móveis, o Ferret-UI2 é capaz de entender as telas da UI de vários dispositivos, como tablets, páginas da web e smart TVs. Esse suporte multiplataforma permite que ele se adapte ao diversificado ecossistema de dispositivos atual e forneça aos usuários uma ampla gama de cenários de aplicativos.
Para melhorar a percepção da IU, Ferret-UI2 introduz tecnologia dinâmica de codificação de imagem de alta resolução e adota um método de aprimoramento chamado "Adaptive Grid". Com esta abordagem, o Ferret-UI2 é capaz de manter a percepção na resolução nativa das capturas de tela da UI, permitindo um reconhecimento mais preciso dos elementos visuais e seus relacionamentos.
Além disso, o Ferret-UI2 aproveita dados de treinamento de alta qualidade para aprender tarefas básicas e avançadas. Para tarefas básicas, o Ferret-UI2 converte dados simples de referência e posicionamento em formato conversacional, permitindo que o modelo construa uma compreensão básica de várias telas da IU. Para tarefas avançadas que se concentram mais na experiência do usuário, o Ferret-UI2 usa a tecnologia de "dicas visuais de conjunto de marcadores" baseada em GPT-4o para gerar dados de treinamento e substitui os cliques simples do método anterior por instruções centradas no usuário em uma única etapa.
Para avaliar o desempenho do Ferret-UI2, os pesquisadores construíram 45 benchmarks abrangendo cinco plataformas, incluindo 6 tarefas básicas e 3 tarefas avançadas para cada plataforma. Além disso, eles usaram benchmarks públicos como GUIDE e GUI-World. Os resultados mostram que o Ferret-UI2 supera o Ferret-UI em todos os benchmarks testados, alcançando especialmente melhorias significativas em tarefas avançadas, demonstrando sua versatilidade no tratamento de tarefas de compreensão de UI multiplataforma.
Os estudos de ablação mostram ainda que tanto as melhorias arquitetônicas quanto as melhorias no conjunto de dados no Ferret-UI2 contribuem para melhorias de desempenho, com o novo conjunto de dados tendo um impacto mais significativo em tarefas mais desafiadoras. Além disso, o Ferret-UI2 também tem um bom desempenho no aprendizado de transferência entre plataformas, mostrando especialmente boas capacidades de generalização entre as plataformas iPhone, iPad e Android.
Endereço do modelo: https://huggingface.co/jadechoghari/Ferret-UI-Llama8b
Endereço do artigo: https://arxiv.org/pdf/2410.18967