Anthropic公司於十月推出的Claude的「電腦使用」功能,讓其AI智能體能力備受矚目,Claude成為首個能透過與人類相同的圖形使用者介面(GUI)進行互動的前沿模型。 Downcodes小編將帶您深入了解這項技術的突破性進展,以及它所面臨的挑戰和未來發展方向。
自從Anthropic 於十月推出Claude 的「電腦使用」 功能後,AI 智能體的能力引起了廣泛關注。這項功能使得Claude 成為首個能夠透過與人類相同的圖形使用者介面(GUI) 進行互動的前沿模型。
Claude 透過存取桌面螢幕截圖,並透過鍵盤和滑鼠操作來完成任務,這為使用者提供了一種無需API 介面就能自動化操作的便利方式。
在一項由新加坡國立大學Show Lab 進行的研究中,研究人員對Claude 進行了多項任務的測試,包括網路搜尋、工作流程完成、辦公室生產力和電玩遊戲等。這些任務檢視了Claude 在不同場景下的能力,例如在網頁上搜尋並購買商品,或將資訊從網站提取並插入到電子表格中。透過這些測試,研究人員從規劃、行動和評估三個維度評估了Claude 的表現。
在執行複雜任務方面,Claude 的表現令人印象深刻。它能夠制定出清晰的計劃,按步驟執行,並在每一步評估自己的進度。此外,它還能夠在多個應用程式之間進行協調,例如將資訊網頁複製到電子表格中。在某些情況下,Claude 甚至能在任務結束時回顧結果,以確保所有內容與目標一致。
然而,Claude 也會出現一些簡單的失誤,這些錯誤是一般使用者容易避免的。例如,在一個任務中,它未能完成訂閱,因為沒有向下捲動網頁找到相應的按鈕。
還有一些情況下,它在執行顯而易見的任務時,例如選擇和替換文字或將項目符號更改為數字,表現得十分笨拙。此外,Claude 有時並沒有意識到自己的錯誤,或對未能達成目標的原因做出錯誤假設。
研究人員指出,Claude 在自我評估機制方面的不足可能是導致這些失誤的原因,未來可能需要改進GUI 代理框架,以便增加更嚴格的自我評估模組。研究結果也顯示,現有的GUI 代理程式並不能完全復刻人類使用電腦時的基本細微差別。
對企業而言,使用簡單文字描述自動化任務的潛力十分誘人,但目前這項技術尚未達到大規模應用的成熟度。模型的行為不穩定,可能導致在敏感應用中的不可預測後果。同時,透過人類設計的介面來執行操作,也並不是完成任務最快的方法。
在廣泛部署之前,企業還需專注於將大型語言模型(LLM) 授權滑鼠和鍵盤所帶來的安全風險。例如,有研究顯示,網路代理容易受到人類能夠輕易忽視的對抗性攻擊。儘管如此,像Claude 這樣的工具仍可以幫助產品團隊探索創意,迭代解決方案,從而在開發新功能或服務之前節省時間和成本。
Claude的「電腦使用」功能展現了AI技術進步的巨大潛力,但也揭示了其在可靠性和安全性方面仍需改進的空間。未來,隨著科技的不斷發展與完善,相信類似Claude這樣的AI工具將能更好地服務人類,提高效率,並帶來更多可能性。