Atualização de agente multimodal de experiência aberta GLM-PC para operar o computador de forma autônoma - artigo AI

Autor：Eve Cole Data da Última Atualização：2025-01-28 14:32:01

Beijing Zhipu Huazhang Technology Co., Ltd. abriu oficialmente sua experiência de agente inteligente multimodal GLM-PC ao público, marcando um novo marco na interação humano-computador. O GLM-PC é baseado no grande modelo multimodal CogAgent do Wisdom, que pode operar computadores de forma autônoma e fornecer aos usuários uma experiência de computador mais inteligente e eficiente. Com apenas uma simples operação de pressionar Enter, você pode experimentar suas funções poderosas, incluindo geração de código, raciocínio lógico, compreensão de GUI, etc., o que melhora muito a eficiência do trabalho. Desde seu lançamento em 29 de novembro, o GLM-PC está em fase de testes internos. Essa atualização traz ao público funções mais completas e uma experiência de usuário mais tranquila.

Desde que o GLM-PC v1.0 foi lançado em 29 de novembro de 2024, ele está em fase de testes internos. Esta versão traz um modo de “pensamento profundo”, novas funções de raciocínio lógico e geração de código, além de oferecer suporte a sistemas Windows. Os recursos do GLM-PC abrangem muitos aspectos, como geração de código, execução lógica e compreensão da interface gráfica do usuário (GUI), demonstrando seu forte potencial em operações inteligentes.

Em termos de geração de código e execução lógica, o GLM-PC tem a capacidade de analisar objetivos e recursos de forma abrangente, gerar roteiros de execução e decompor grandes tarefas em pequenas subtarefas gerenciáveis para obter um planejamento eficiente de tarefas. Após a conclusão do planejamento da tarefa, o agente pode iniciar o módulo de geração de código para execução cíclica para garantir a conclusão precisa da tarefa. Ao mesmo tempo, o GLM-PC também tem a capacidade de pensar a longo prazo, podendo ajustar e refletir sobre as correções em tempo real e interagir com os usuários para otimizar soluções.

Em termos de cognição de imagem e GUI, o GLM-PC pode identificar e compreender com precisão elementos da interface gráfica, como botões e ícones, e fornecer recomendações inteligentes com base nas informações históricas de operação do usuário. Sua função de análise semântica de imagens pode analisar profundamente imagens complexas e extrair informações importantes, como tendências e indicadores. Além disso, o GLM-PC também pode fundir informações de imagem e texto para fornecer aos usuários resultados de percepção abrangentes e ajudá-los a formular planos de operação precisos.

Com o desenvolvimento contínuo da tecnologia de inteligência artificial, o lançamento do GLM-PC trará, sem dúvida, aos usuários uma experiência computacional mais eficiente e inteligente, marcando um progresso importante na interação humano-computador.

A experiência aberta do GLM-PC demonstra o enorme potencial da tecnologia de inteligência artificial para melhorar a eficiência da interação humano-computador. Espera-se que seja aplicada em mais campos no futuro, trazendo aos usuários uma experiência de vida mais conveniente e inteligente. Esperamos melhorar continuamente o GLM-PC no futuro e trazer mais surpresas aos usuários.