Zhipu AI abriu o código-fonte de seu modelo CogAgent-9B baseado no treinamento GLM-4V-9B. Este é um modelo de tarefa de agente que pode entender as instruções do usuário por meio de capturas de tela e prever a próxima operação da GUI. Este modelo tem forte universalidade e é adequado para vários cenários de interação GUI, como computadores pessoais, telefones celulares e carros. Comparado com a versão anterior, o CogAgent-9B-20241220 foi significativamente melhorado em muitos aspectos, suporta chinês e inglês bilíngues e pode produzir processos de pensamento detalhados, descrições de ações e julgamentos de sensibilidade. Alcançou resultados líderes em vários conjuntos de dados, demonstrando suas vantagens no posicionamento de GUI, operações de etapa única e de várias etapas. O CogAgent-9B de código aberto não apenas promove o desenvolvimento de tecnologia de modelos grandes, mas também oferece novas possibilidades para deficientes visuais.
Comparado com a primeira versão do modelo CogAgent que foi de código aberto em dezembro de 2023, o CogAgent-9B-20241220 melhorou significativamente em termos de percepção da GUI, precisão da previsão de inferência, integridade do espaço de ação, universalidade e generalização de tarefas e oferece suporte a capturas de tela e linguagem bilíngues. interação em chinês e inglês. A entrada do CogAgent inclui apenas instruções em linguagem natural do usuário, registros de ações históricas executadas e capturas de tela da GUI, sem qualquer representação textual de informações de layout ou informações adicionais de rótulos de elementos. O resultado abrange o processo de pensamento, a descrição em linguagem natural da próxima ação, a descrição estruturada da próxima ação e o julgamento sensível da próxima ação.
No teste de desempenho, o CogAgent-9B-20241220 alcançou resultados líderes em vários conjuntos de dados, demonstrando suas vantagens em posicionamento de GUI, operações de etapa única, listas passo a passo chinesas e operações de várias etapas. Este movimento da Smart Spectrum Technology não apenas promove o desenvolvimento de modelos de tecnologia de grande porte, mas também fornece novas ferramentas e possibilidades para profissionais de TI com deficiência visual.
Código:
https://github.com/THUDM/CogAgent
Modelo:
Huggingface: https://huggingface.co/THUDM/cogagent-9b-20241220
Comunidade Cogagent: https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220
O código aberto do CogAgent-9B marca um passo importante no ecossistema de agentes de modelos grandes. Seus eficientes recursos de interação GUI e ampla aplicabilidade fornecem uma nova direção para o desenvolvimento futuro da tecnologia de interação inteligente e também anunciam o surgimento de cenários de aplicação futuros mais convenientes e inteligentes. Esperamos ver aplicações mais inovadoras baseadas no CogAgent-9B.