智谱 AI 近日开源了其视觉语言模型 CogAgent,这是一个参数规模达 180 亿的强大工具,在 GUI 理解和导航方面表现卓越。CogAgent 支持高分辨率视觉输入和对话问答,能够根据任意 GUI 截图进行问答,并支持 OCR 相关任务。其预训练和微调显著提升了模型能力,用户可通过上传截图进行任务推理,获得计划、下一步动作及具体操作坐标信息,为用户提供更便捷高效的交互体验。该模型在多个基准测试中取得了 SOTA 的通用性能,展现了其在视觉语言领域的技术领先性。
CogAgent 的开源为 AI 社区带来了一个强大的新工具,其在 GUI 理解和交互方面的能力有望推动诸多应用场景的发展。相信未来 CogAgent 将在更多领域发挥重要作用,并持续改进,为用户提供更完善的服务。