智谱 AI 开源视觉语言模型 CogAgent，支持 GUI 图形界面问答

作者：Eve Cole 更新时间：2025-01-16 14:16:01

智谱AI 近日开源了其视觉语言模型CogAgent，这是一个参数规模达180 亿的强大工具，在GUI 理解和导航方面表现卓越。 CogAgent 支持高分辨率视觉输入和对话问答，能够根据任意GUI 截图进行问答，并支持OCR 相关任务。其预训练和微调显着提升了模型能力，用户可通过上传截图进行任务推理，获得计划、下一步动作及具体操作坐标信息，为用户提供更便捷高效的交互体验。该模型在多个基准测试中取得了SOTA 的通用性能，展现了其在视觉语言领域的技术领先性。

CogAgent 的开源为AI 社区带来了一个强大的新工具，其在GUI 理解和交互方面的能力有望推动诸多应用场景的发展。相信未来CogAgent 将在更多领域发挥重要作用，并持续改进，为用户提供更完善的服务。