在人工智能领域,一项革命性的突破正在重塑我们与计算机交互的方式。昆仑万维携手北京智源人工智能研究院、新加坡南洋理工大学和北京大学等顶尖机构,共同推出了一款名为Cradle的通用计算机控制框架。这一创新性AI框架突破了传统智能体的局限,使其能够像人类一样直接操控键盘和鼠标,与各种开源或闭源软件进行无缝交互,而无需依赖任何内部API。Cradle的独特之处在于,它是首个能够同时驾驭多种商业游戏和操作各类软件应用的AI框架,其研究成果、项目资料和源代码均已向公众开放,为AI领域的发展注入了新的活力。
Cradle在实际应用中的表现令人惊叹,它展示了在多款不同类型游戏中的卓越能力。从在《荒野大镖客2》中完成长达40分钟的主线任务,到在《星露谷物语》中精心打理农场和进行购物;从在《城市天际线》中构建容纳千人的小镇,到在《当铺人生2》中与客户进行复杂的讨价还价,Cradle都展现出了惊人的适应性。不仅如此,它还能熟练操作Chrome、Outlook、飞书等日常办公软件,甚至能够进行专业级的修图和视频剪辑,真正成为了一个全能的AI助手。
Cradle的成功得益于其精妙的系统架构,它由信息收集、自我反思、任务推断、技能管理、行动规划和记忆模块六个核心部分组成。通过巧妙地封装和抽象原始输入输出,Cradle实现了与计算机的自然交互。它采用屏幕显示的视频图像作为主要输入源,从中提取文本和视觉信息进行决策,并输出控制键盘和鼠标的信号。特别值得一提的是,Cradle的决策推理模块能够自发地与软件进行交互并完成任务,通过反思过去、总结现在和规划未来的方式进行操作,展现出了类人的思维模式。
在实际测试中,Cradle的表现充分证明了其通用性。它能够在多种风格和操作方式截然不同的游戏中完成复杂的任务,同时在常用软件中也能游刃有余地执行各项任务,如下载学术论文、发送电子邮件、图像处理、视频剪辑等。更令人瞩目的是,Cradle在具有挑战性的benchmark OSWorld测试中,甚至击败了使用真值标签的基线方法,展现了其强大的学习能力和适应性。
Cradle的发布标志着通用计算机控制智能体(GCC Agents)的发展迈出了重要一步。它不仅推动了统一输入输出接口的发展,为未来智能体在不同环境中的交互和自我提升奠定了坚实基础,更是为实现通用人工智能(AGI)目标迈出了关键性的一步。这一创新性框架的诞生,将可能彻底改变我们与计算机交互的方式,开启人机协作的新纪元。
项目主页:https://baai-agents.github.io/Cradle
代码链接:https://github.com/BAAI-Agents/Cradle