在人工智能領域,一項革命性的突破正在重塑我們與計算機交互的方式。崑崙萬維攜手北京智源人工智能研究院、新加坡南洋理工大學和北京大學等頂尖機構,共同推出了一款名為Cradle的通用計算機控制框架。這一創新性AI框架突破了傳統智能體的局限,使其能夠像人類一樣直接操控鍵盤和鼠標,與各種開源或閉源軟件進行無縫交互,而無需依賴任何內部API。 Cradle的獨特之處在於,它是首個能夠同時駕馭多種商業遊戲和操作各類軟件應用的AI框架,其研究成果、項目資料和源代碼均已向公眾開放,為AI領域的發展注入了新的活力。
Cradle在實際應用中的表現令人驚嘆,它展示了在多款不同類型遊戲中的卓越能力。從在《荒野大鏢客2》中完成長達40分鐘的主線任務,到在《星露穀物語》中精心打理農場和進行購物;從在《城市天際線》中構建容納千人的小鎮,到在《當舖人生2》中與客戶進行複雜的討價還價,Cradle都展現出了驚人的適應性。不僅如此,它還能熟練操作Chrome、Outlook、飛書等日常辦公軟件,甚至能夠進行專業級的修圖和視頻剪輯,真正成為了一個全能的AI助手。
Cradle的成功得益於其精妙的系統架構,它由信息收集、自我反思、任務推斷、技能管理、行動規劃和記憶模塊六個核心部分組成。通過巧妙地封裝和抽象原始輸入輸出,Cradle實現了與計算機的自然交互。它採用屏幕顯示的視頻圖像作為主要輸入源,從中提取文本和視覺信息進行決策,並輸出控制鍵盤和鼠標的信號。特別值得一提的是,Cradle的決策推理模塊能夠自發地與軟件進行交互並完成任務,通過反思過去、總結現在和規劃未來的方式進行操作,展現出了類人的思維模式。
在實際測試中,Cradle的表現充分證明了其通用性。它能夠在多種風格和操作方式截然不同的遊戲中完成複雜的任務,同時在常用軟件中也能游刃有餘地執行各項任務,如下載學術論文、發送電子郵件、圖像處理、視頻剪輯等。更令人矚目的是,Cradle在具有挑戰性的benchmark OSWorld測試中,甚至擊敗了使用真值標籤的基線方法,展現了其強大的學習能力和適應性。
Cradle的發布標誌著通用計算機控制智能體(GCC Agents)的發展邁出了重要一步。它不僅推動了統一輸入輸出接口的發展,為未來智能體在不同環境中的交互和自我提升奠定了堅實基礎,更是為實現通用人工智能(AGI)目標邁出了關鍵性的一步。這一創新性框架的誕生,將可能徹底改變我們與計算機交互的方式,開啟人機協作的新紀元。
項目主頁:https://baai-agents.github.io/Cradle
代碼鏈接:https://github.com/BAAI-Agents/Cradle