智谱AI 近日开源了其视觉语言模型CogAgent,这是一个参数规模达180 亿的强大工具,在GUI 理解和导航方面表现卓越。 CogAgent 支持高分辨率视觉输入和对话问答,能够根据任意GUI 截图进行问答,并支持OCR 相关任务。其预训练和微调显着提升了模型能力,用户可通过上传截图进行任务推理,获得计划、下一步动作及具体操作坐标信息,为用户提供更便捷高效的交互体验。该模型在多个基准测试中取得了SOTA 的通用性能,展现了其在视觉语言领域的技术领先性。
CogAgent 的开源为AI 社区带来了一个强大的新工具,其在GUI 理解和交互方面的能力有望推动诸多应用场景的发展。相信未来CogAgent 将在更多领域发挥重要作用,并持续改进,为用户提供更完善的服务。