A Zhipu AI recentemente abriu o código-fonte de seu modelo de linguagem visual CogAgent, que é uma ferramenta poderosa com um tamanho de parâmetro de 18 bilhões e excelente desempenho na compreensão e navegação da GUI. O CogAgent suporta entrada visual de alta resolução e perguntas e respostas de conversação, pode conduzir perguntas e respostas com base em qualquer captura de tela da GUI e oferece suporte a tarefas relacionadas a OCR. Seu pré-treinamento e ajuste fino melhoraram significativamente as capacidades do modelo. Os usuários podem realizar o raciocínio de tarefas enviando capturas de tela e obtendo planos, próximas ações e informações específicas de coordenadas de operação, proporcionando aos usuários uma experiência interativa mais conveniente e eficiente. Este modelo alcançou desempenho geral SOTA em vários testes de benchmark, demonstrando a sua liderança técnica no campo da linguagem visual.
O código aberto do CogAgent traz uma nova ferramenta poderosa para a comunidade de IA, e espera-se que seus recursos de compreensão e interação com GUI promovam o desenvolvimento de muitos cenários de aplicação. Acredita-se que o CogAgent desempenhará um papel importante em mais áreas no futuro e continuará a melhorar para fornecer aos usuários serviços mais completos.