Diante das interações de interface cada vez mais complexas na era de várias telas, como telefones celulares, tablets, computadores e TVs, a Apple lançou seu poderoso modelo de compreensão da interface do usuário, Ferret-UI2, com o objetivo de unificar a compreensão da interface do usuário de diferentes plataformas. O Ferret-UI2 não é uma atualização simples, mas um novo modelo com recursos de plataforma cruzada. Suas vantagens principais estão no suporte a várias plataformas, a tecnologia de codificação de imagem de alta resolução dinâmica e a tecnologia "Conjunto de mercado" baseado em GPT-4O, que torna o Ferret-Ui2 significativo tanto na percepção da UI e nos recursos de processamento de tarefas.
Telefones celulares, tablets, computadores e TVs têm mais e mais telas e operações mais complexas.
Este não é um objetivo.
Um destaque do Ferret-UI2 é seu suporte para várias plataformas. Ao contrário do Ferret-UI, limitado a plataformas móveis, o Ferret-UI2 é capaz de entender as telas da interface do usuário de vários dispositivos, como tablets, páginas da web e TVs inteligentes. Esse suporte multi-plataforma permite que ele se adapte ao diverso ecossistema de dispositivos de hoje e forneça aos usuários uma gama mais ampla de cenários de aplicativos.
Para melhorar a percepção da interface do usuário, o Ferret-UI2 introduziu a tecnologia dinâmica de codificação de imagem de alta resolução e adotou um método de aprimoramento chamado "grade adaptativa". Dessa forma, o Ferret-UI2 é capaz de manter a percepção na resolução original da captura de tela da interface do usuário, identificando mais com mais precisão elementos visuais e seus relacionamentos.
Além disso, o Ferret-UI2 também usa dados de treinamento de alta qualidade para aprender tarefas básicas e avançadas. Para tarefas básicas, o Ferret-UI2 converte os dados simples de referência e posicionamento em formatos de diálogo, permitindo que o modelo estabeleça um entendimento básico de várias telas da interface do usuário. Para tarefas avançadas que se concentram mais na experiência do usuário, o Ferret-UI2 usa a tecnologia "conjunto visual de conjunto de tags" baseada no GPT-4O para gerar dados de treinamento e substitui os cliques simples no método anterior pela interação central do usuário. instrução.
Para avaliar o desempenho do Ferret-UI2, os pesquisadores construíram 45 benchmarks cobrindo cinco plataformas, incluindo 6 tarefas básicas e 3 tarefas avançadas para cada plataforma. Além disso, eles também usaram benchmarks públicos, como Guide e Gui-World. Os resultados mostram que o Ferret-UI2 supera o Ferret-UI em todos os benchmarks de teste, especialmente com avanços significativos em tarefas avançadas, demonstrando sua versatilidade no tratamento de tarefas de compreensão da UI entre plataformas.
Os estudos de ablação mostram ainda que as melhorias da arquitetura Ferret-UI2 e as melhorias no conjunto de dados contribuem para melhorias no desempenho, com o impacto de novos conjuntos de dados em tarefas mais desafiadoras mais significativas. Além disso, o Ferret-UI2 também teve um bom desempenho no aprendizado de transferência de plataformas cruzadas, especialmente em boas recursos de generalização entre plataformas iPhone, iPad e Android.
Endereço do modelo: https://huggingface.co/jadechoghari/ferret-ui-llama8b
Endereço em papel: https://arxiv.org/pdf/2410.18967
Em resumo, o Ferret-UI2 fornece novas possibilidades para uma interação humano-computador mais inteligente e conveniente no futuro, com suas poderosas capacidades de compreensão da interface de plataforma cruzada e melhorias significativas de desempenho. Seu modelo e papel de código aberto também fornecem recursos valiosos para pesquisas e aplicações adicionais.