智谱AI近期发布了基于GLM技术的新产品AutoGLM,这是一个能够模拟人类操作手机,执行各种日常任务的智能体。AutoGLM的出现标志着AI在手机应用领域的重大突破,它能够在微信、淘宝、携程、12306、美团等常用应用上完成各种操作,极大提升了用户效率,并将AI应用融入日常生活。其操作逻辑与人类相似,无需复杂的流程搭建,使用门槛极低。
AutoGLM能够执行多种任务,如在微信上点赞并评论朋友圈、在淘宝上购买历史订单产品、在携程上预订酒店、在12306上购买火车票、在美团上点外卖等。它的应用场景不仅限于此,理论上,AutoGLM可以完成人类在可视化电子设备上能做的任何事,操作逻辑与人类类似,无需复杂的工作流搭建。
目前,用户可以通过安装“智谱清言”插件体验AutoGLM-Web,这是一个浏览器助手,能够模拟用户访问网页、点击网页,并在网站上自动完成高级检索、总结与内容生成。此外,AutoGLM也在安卓系统上开放了内测申请,并与荣耀等手机厂商开展了深度合作。
AutoGLM的技术基于智谱自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”,解决了大模型智能体任务规划和动作执行中的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等问题。AutoGLM能够不断自我改进、持续稳定地提高自身性能,类似于人在成长过程中不断获取新技能。
在技术挑战方面,AutoGLM解决了“动作执行”不够精确和“任务规划”不够灵活的问题。它通过“基础智能体解耦合中间界面”设计,将“任务规划”与“动作执行”两个阶段通过自然语言中间界面进行解耦合,实现了智能体能力的极大提升。同时,AutoGLM采用了“自进化在线课程强化学习框架”,在真实在线环境中学习和提升大模型智能体在Web和Phone环境中的能力。
AutoGLM在Phone Use和Web Browser Use上都取得了显著的性能提升,并在AndroidLab评测基准上超越了GPT-4o和Claude-3.5-Sonnet的表现。在WebArena-Lite评测基准中,AutoGLM相对GPT-4o取得了约200%的性能提升,缩小了人类和大模型智能体在GUI操控上的成功率差距。
项目地址:https://xiao9905.github.io/AutoGLM
AutoGLM凭借其强大的功能和技术创新,展现了人工智能在手机操作领域的巨大潜力,为人们的日常生活带来了更多便利。其在性能测试中的优异表现也证明了其技术实力。未来,随着技术的不断进步,AutoGLM有望实现更广泛的应用,为用户创造更多价值。