智谱AI开源Agent任务模型CogAgent-9B：通过屏幕截图预判操作

作者：Eve Cole 更新时间：2024-12-27 11:48:01

智谱AI开源了其基于GLM-4V-9B训练的CogAgent-9B模型，这是一个能够通过屏幕截图理解用户指令并预测下一步GUI操作的Agent任务模型。该模型具有强大的普适性，适用于个人电脑、手机、车机等多种基于GUI交互的场景。相较于上一版本，CogAgent-9B-20241220在多个方面都有显着提升，支持中英文双语，并能输出详细的思考过程、动作描述及敏感性判断。其在多个数据集上取得了领先结果，展现了在GUI定位、单步及多步操作方面的优势。开源CogAgent-9B不仅推动了大模型技术的发展，也为视障人士提供了新的可能性。

微信截图_20241227091131.png

与2023年12月开源的第一版CogAgent模型相比，CogAgent-9B-20241220在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均有显着提升，并支持中英文双语的屏幕截图和语言交互。 CogAgent的输入仅包含用户的自然语言指令、已执行历史动作记录和GUI截图，无需任何文本形式表征的布局信息或附加元素标签信息。输出则涵盖思考过程、下一步动作的自然语言描述、下一步动作的结构化描述以及下一步动作的敏感性判断。

在性能测试中，CogAgent-9B-20241220在多个数据集上取得了领先结果，展现了其在GUI定位、单步操作、中文step-wise榜单和多步操作等方面的优势。智谱技术的这一举措，不仅推动了大模型技术的发展，也为视障IT从业者提供了新的工具和可能性。

代码:

https://github.com/THUDM/CogAgent

模型:

Huggingface:https://huggingface.co/THUDM/cogagent-9b-20241220

魔搭社区:https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220

CogAgent-9B的开源，标志着大模型Agent生态迈出了重要一步。其高效的GUI交互能力和广泛的适用性，为未来智能交互技术的发展提供了新的方向，也预示着更便捷、更智能的未来应用场景即将到来。我们期待看到更多基于CogAgent-9B的创新应用。

智谱A​I开源Agent任务模型CogAgent-9B：通过屏幕截图预判操作

智谱AI开源Agent任务模型CogAgent-9B：通过屏幕截图预判操作