Anthropic公司十月發布的Claude「電腦使用」功能,賦予了AI智能體前所未有的能力,使其能夠透過圖形使用者介面(GUI)與人類進行交互,引發了廣泛關注。此功能突破了傳統API介面的限制,讓Claude直接操控電腦,完成更複雜的任務。新加坡國立大學Show Lab的研究對Claude進行了全面的測試,評估其在不同場景下的表現,為我們展現了這項技術的潛力與限制。
自從Anthropic 於十月推出Claude 的「電腦使用」 功能後,AI 智能體的能力引起了廣泛關注。這項功能使得Claude 成為首個能夠透過與人類相同的圖形使用者介面(GUI) 進行互動的前沿模型。
Claude 透過存取桌面螢幕截圖,並透過鍵盤和滑鼠操作來完成任務,這為使用者提供了一種無需API 介面就能自動化操作的便利方式。
在一項由新加坡國立大學Show Lab 進行的研究中,研究人員對Claude 進行了多項任務的測試,包括網路搜尋、工作流程完成、辦公室生產力和電玩遊戲等。這些任務檢視了Claude 在不同場景下的能力,例如在網頁上搜尋並購買商品,或將資訊從網站提取並插入到電子表格中。透過這些測試,研究人員從規劃、行動和評估三個維度評估了Claude 的表現。
在執行複雜任務方面,Claude 的表現令人印象深刻。它能夠制定出清晰的計劃,按步驟執行,並在每一步評估自己的進度。此外,它還能夠在多個應用程式之間進行協調,例如將資訊網頁複製到電子表格中。在某些情況下,Claude 甚至能在任務結束時回顧結果,以確保所有內容與目標一致。
然而,Claude 也會出現一些簡單的失誤,這些錯誤是一般使用者容易避免的。例如,在一個任務中,它未能完成訂閱,因為沒有向下捲動網頁找到相應的按鈕。
還有一些情況下,它在執行顯而易見的任務時,例如選擇和替換文字或將項目符號更改為數字,表現得十分笨拙。此外,Claude 有時並沒有意識到自己的錯誤,或對未能達成目標的原因做出錯誤假設。
研究人員指出,Claude 在自我評估機制方面的不足可能是導致這些失誤的原因,未來可能需要改進GUI 代理框架,以便增加更嚴格的自我評估模組。研究結果也顯示,現有的GUI 代理程式並不能完全復刻人類使用電腦時的基本細微差別。
對企業而言,使用簡單文字描述自動化任務的潛力十分誘人,但目前這項技術尚未達到大規模應用的成熟度。模型的行為不穩定,可能導致在敏感應用中的不可預測後果。同時,透過人類設計的介面來執行操作,也並不是完成任務最快的方法。
在廣泛部署之前,企業還需專注於將大型語言模型(LLM) 授權滑鼠和鍵盤所帶來的安全風險。例如,有研究顯示,網路代理容易受到人類能夠輕易忽視的對抗性攻擊。儘管如此,像Claude 這樣的工具仍可以幫助產品團隊探索創意,迭代解決方案,從而在開發新功能或服務之前節省時間和成本。
劃重點:
1. Claude 具備透過圖形使用者介面進行複雜任務自動化的能力,表現出色。
2. Claude 在執行簡單任務時會出現失誤,反映出其自我評估機制的不足。
3. 現階段,該技術尚不適合大規模應用,企業需謹慎處理潛在的安全風險
總而言之,Claude 的「電腦使用」功能展現了AI 在自動化領域的巨大潛力,但也暴露出其在穩定性和安全性方面仍需改進之處。未來,隨著技術的不斷發展和完善,類似Claude 的AI 智能體將在更多領域中發揮重要作用。