智譜AI 開源視覺語言模型CogAgent，支援GUI 圖形介面問答

作者：Eve Cole 更新時間：2025-01-16 14:16:01

智谱 AI 近日开源了其视觉语言模型 CogAgent，这是一个参数规模达 180 亿的强大工具，在 GUI 理解和导航方面表现卓越。CogAgent 支持高分辨率视觉输入和对话问答，能够根据任意 GUI 截图进行问答，并支持 OCR 相关任务。其预训练和微调显著提升了模型能力，用户可通过上传截图进行任务推理，获得计划、下一步动作及具体操作坐标信息，为用户提供更便捷高效的交互体验。该模型在多个基准测试中取得了 SOTA 的通用性能，展现了其在视觉语言领域的技术领先性。

CogAgent 的开源为 AI 社区带来了一个强大的新工具，其在 GUI 理解和交互方面的能力有望推动诸多应用场景的发展。相信未来 CogAgent 将在更多领域发挥重要作用，并持续改进，为用户提供更完善的服务。