Claude支援像人一樣操控計算機功能在研究中顯示出優勢和局限性- AI文章

作者：Eve Cole 更新時間：2025-01-25 18:48:01

Anthropic公司十月發布的Claude「電腦使用」功能，賦予了AI智能體前所未有的能力，使其能夠透過圖形使用者介面（GUI）與人類進行交互，引發了廣泛關注。此功能突破了傳統API介面的限制，讓Claude直接操控電腦，完成更複雜的任務。新加坡國立大學Show Lab的研究對Claude進行了全面的測試，評估其在不同場景下的表現，為我們展現了這項技術的潛力與限制。

自從Anthropic 於十月推出Claude 的「電腦使用」功能後，AI 智能體的能力引起了廣泛關注。這項功能使得Claude 成為首個能夠透過與人類相同的圖形使用者介面（GUI）進行互動的前沿模型。

Claude 透過存取桌面螢幕截圖，並透過鍵盤和滑鼠操作來完成任務，這為使用者提供了一種無需API 介面就能自動化操作的便利方式。

在一項由新加坡國立大學Show Lab 進行的研究中，研究人員對Claude 進行了多項任務的測試，包括網路搜尋、工作流程完成、辦公室生產力和電玩遊戲等。這些任務檢視了Claude 在不同場景下的能力，例如在網頁上搜尋並購買商品，或將資訊從網站提取並插入到電子表格中。透過這些測試，研究人員從規劃、行動和評估三個維度評估了Claude 的表現。

在執行複雜任務方面，Claude 的表現令人印象深刻。它能夠制定出清晰的計劃，按步驟執行，並在每一步評估自己的進度。此外，它還能夠在多個應用程式之間進行協調，例如將資訊網頁複製到電子表格中。在某些情況下，Claude 甚至能在任務結束時回顧結果，以確保所有內容與目標一致。

然而，Claude 也會出現一些簡單的失誤，這些錯誤是一般使用者容易避免的。例如，在一個任務中，它未能完成訂閱，因為沒有向下捲動網頁找到相應的按鈕。

還有一些情況下，它在執行顯而易見的任務時，例如選擇和替換文字或將項目符號更改為數字，表現得十分笨拙。此外，Claude 有時並沒有意識到自己的錯誤，或對未能達成目標的原因做出錯誤假設。

研究人員指出，Claude 在自我評估機制方面的不足可能是導致這些失誤的原因，未來可能需要改進GUI 代理框架，以便增加更嚴格的自我評估模組。研究結果也顯示，現有的GUI 代理程式並不能完全復刻人類使用電腦時的基本細微差別。

對企業而言，使用簡單文字描述自動化任務的潛力十分誘人，但目前這項技術尚未達到大規模應用的成熟度。模型的行為不穩定，可能導致在敏感應用中的不可預測後果。同時，透過人類設計的介面來執行操作，也並不是完成任務最快的方法。

在廣泛部署之前，企業還需專注於將大型語言模型（LLM）授權滑鼠和鍵盤所帶來的安全風險。例如，有研究顯示，網路代理容易受到人類能夠輕易忽視的對抗性攻擊。儘管如此，像Claude 這樣的工具仍可以幫助產品團隊探索創意，迭代解決方案，從而在開發新功能或服務之前節省時間和成本。

劃重點:

1. Claude 具備透過圖形使用者介面進行複雜任務自動化的能力，表現出色。

2. Claude 在執行簡單任務時會出現失誤，反映出其自我評估機制的不足。

3. 現階段，該技術尚不適合大規模應用，企業需謹慎處理潛在的安全風險

總而言之，Claude 的「電腦使用」功能展現了AI 在自動化領域的巨大潛力，但也暴露出其在穩定性和安全性方面仍需改進之處。未來，隨著技術的不斷發展和完善，類似Claude 的AI 智能體將在更多領域中發揮重要作用。