A equipe Zhipu AI da Universidade de Tsinghua lançou recentemente um novo modelo de linguagem visual, CogAgent, que visa melhorar a compreensão do computador e as capacidades de controle de interfaces gráficas de usuário (GUIs). O modelo usa um sistema de codificador duplo que pode processar com eficiência imagens de alta resolução e elementos GUI complexos e mostra excelente desempenho em tarefas como navegação GUI, texto e resposta visual a perguntas em plataformas PC e Android. O surgimento do CogAgent oferece novas possibilidades para automatizar operações de GUI, fornecendo ajuda e orientação de GUI e inovando métodos de design e interação de GUI, e espera-se que mude significativamente o modelo de interação humano-computador.
A equipe Zhipu AI da Universidade de Tsinghua lançou o CogAgent, um modelo de linguagem visual focado em melhorar a compreensão e a navegação de interfaces gráficas de usuário (GUIs), usando um sistema de codificador duplo para processar elementos complexos de GUI. O modelo tem um bom desempenho no processamento de entrada de alta resolução, navegação GUI em plataformas PC e Android e tarefas de resposta a perguntas visuais e de texto. As aplicações potenciais do CogAgent incluem a automatização de operações de GUI, o fornecimento de ajuda e orientação de GUI e a promoção de novos métodos de design e interação de GUI. Embora ainda esteja nos estágios iniciais de desenvolvimento, o modelo promete levar a mudanças significativas na forma como os computadores interagem.
O lançamento do modelo CogAgent marca um progresso importante na tecnologia de interação humano-computador. Seu progresso revolucionário na compreensão e navegação de GUI estabeleceu uma base sólida para uma experiência de interação humano-computador mais inteligente e conveniente no futuro. Estamos ansiosos pelo desenvolvimento subsequente do CogAgent para trazer aos usuários cenários de aplicativos mais ricos e uma experiência interativa mais suave.