Em um ambiente profissional, os agentes gráficos da interface do usuário (GUI) enfrentam três desafios -chave. Primeiro de tudo, a complexidade das aplicações profissionais é muito maior que a do software geral e requer uma compreensão profunda dos layouts complexos. Essas aplicações geralmente contêm um grande número de módulos funcionais e lógica interativa complexa, exigindo que os agentes da GUI tenham um alto grau de inteligência e adaptabilidade. Segundo, as ferramentas profissionais geralmente têm resoluções mais altas, resultando em tamanhos de destino menores, o que reduz a precisão do posicionamento. Esse ambiente de alta resolução atribui maiores demandas sobre a precisão dos agentes da GUI, especialmente ao lidar com pequenos elementos de interface. Finalmente, os fluxos de trabalho tendem a confiar em ferramentas e documentação adicionais, aumentando a complexidade das operações. Esses desafios destacam a necessidade de desenvolver benchmarks e soluções mais avançados para melhorar o desempenho dos agentes da GUI nesses cenários rigorosos.
Os atuais modelos de posicionamento da GUI e os benchmarks não podem atender aos requisitos dos ambientes profissionais. Por exemplo, ferramentas como a Screenspot são projetadas principalmente para tarefas de baixa resolução e carecem da diversidade que pode simular com precisão cenários da vida real. Modelos como OS-ATLAS e Uground não têm um bom desempenho em termos de eficiência da computação, especialmente quando o alvo é pequeno ou os ícones da interface são ricos, eles geralmente falham. Além disso, a falta de suporte multilíngue também limita a aplicação desses modelos nos fluxos de trabalho globais. Essas deficiências sublinham ainda mais a necessidade de uma referência mais abrangente e realista para avançar nesta área.
Para abordar essas questões, as equipes de pesquisa da Universidade Nacional de Cingapura, da Universidade Normal da China Oriental e da Universidade Batista de Hong Kong lançaram a Screenspot-Pro, um novo benchmark adaptado para ambientes profissionais de alta resolução. O benchmark possui 1.581 conjuntos de dados de tarefas de 23 indústrias, incluindo desenvolvimento, ferramentas criativas, CAD, plataformas científicas e suítes de escritório. Ele usa visuais de tela cheia de alta resolução e garante precisão e realidade por meio de anotações especializadas. A Screenspot-Pro também fornece orientações multilíngues, incluindo inglês e chinês, para estender o escopo da avaliação. Ao contrário, o Screenspot-Pro documenta o fluxo de trabalho real, garantindo a geração de anotações de alta qualidade, fornecendo ferramentas eficazes para a avaliação e desenvolvimento abrangentes de modelos de posicionamento da GUI.
Esse conjunto de dados captura cenas reais e desafiadoras, com base em imagens de alta resolução, cujas áreas-alvo representam apenas 0,07% da tela total em média, mostrando nuances e miniaturização dos elementos da GUI. Os dados são coletados por usuários profissionais com vasta experiência em aplicativos relacionados, usando ferramentas especializadas para garantir a precisão das anotações. Além disso, o conjunto de dados suporta recursos multilíngues para facilitar o teste de habilidades bilíngues e inclui vários fluxos de trabalho para capturar as nuances das tarefas profissionais. Esses recursos o tornam particularmente benéfico para avaliar e melhorar a precisão e a flexibilidade dos agentes da GUI.
A análise dos modelos de posicionamento da GUI existente usando o Screenspot-Pro mostra que ele tem uma grave falta de capacidade de lidar com ambientes profissionais de alta resolução. A maior taxa de precisão do OS-ATLAS-7B é de apenas 18,9%. No entanto, o Reground, que adota o método iterativo, melhora o desempenho através do ajuste fino do método de várias etapas, atingindo uma precisão de 40,2%. A identificação de pequenos componentes como ícones mostra dificuldades significativas, enquanto a tarefa bilíngue destaca ainda mais as limitações do modelo. Essas descobertas destacam a necessidade de melhorar as técnicas para aprimorar a compreensão e adaptabilidade contextuais em ambientes complexos da GUI.
A Screenspot-Pro define uma referência transformadora para a avaliação de agentes da GUI em ambientes profissionais de alta resolução. Ele aborda desafios específicos em fluxos de trabalho complexos e fornece conjuntos de dados diversos e precisos para orientar as inovações no posicionamento da GUI. Essa contribuição estabelecerá a base para agentes mais inteligentes e eficientes, apoiando assim a execução perfeita de tarefas profissionais e aprimorando significativamente a produtividade e a inovação em vários setores.
Papel: https://likaixin2000.github.io/papers/screenspot_pro.pdf
Dados |: https: //huggingface.co/datasets/likaixin/screenspot-pro
Pontos -chave:
** Complexidade de aplicações profissionais **: Os agentes da GUI precisam lidar com interfaces de software profissionais com alta complexidade e alta resolução.
** O conjunto de dados Screenspot-Pro **: contém 1.581 tarefas, abrange 23 aplicativos profissionais e suporta avaliação multilíngue.
** Melhoria de desempenho do modelo **: Através do ajuste fino de várias etapas, melhore a precisão do modelo de posicionamento da GUI em ambientes de alta resolução.