Claude支援像人一樣操控電腦功能在研究中顯示出優勢和局限性

作者：Eve Cole 更新時間：2025-01-09 18:12:01

Anthropic公司於十月推出的Claude的「電腦使用」功能，讓其AI智能體能力備受矚目，Claude成為首個能透過與人類相同的圖形使用者介面(GUI)進行互動的前沿模型。 Downcodes小編將帶您深入了解這項技術的突破性進展，以及它所面臨的挑戰和未來發展方向。

自從Anthropic 於十月推出Claude 的「電腦使用」功能後，AI 智能體的能力引起了廣泛關注。這項功能使得Claude 成為首個能夠透過與人類相同的圖形使用者介面（GUI）進行互動的前沿模型。

Claude 透過存取桌面螢幕截圖，並透過鍵盤和滑鼠操作來完成任務，這為使用者提供了一種無需API 介面就能自動化操作的便利方式。

在一項由新加坡國立大學Show Lab 進行的研究中，研究人員對Claude 進行了多項任務的測試，包括網路搜尋、工作流程完成、辦公室生產力和電玩遊戲等。這些任務檢視了Claude 在不同場景下的能力，例如在網頁上搜尋並購買商品，或將資訊從網站提取並插入到電子表格中。透過這些測試，研究人員從規劃、行動和評估三個維度評估了Claude 的表現。

在執行複雜任務方面，Claude 的表現令人印象深刻。它能夠制定出清晰的計劃，按步驟執行，並在每一步評估自己的進度。此外，它還能夠在多個應用程式之間進行協調，例如將資訊網頁複製到電子表格中。在某些情況下，Claude 甚至能在任務結束時回顧結果，以確保所有內容與目標一致。

然而，Claude 也會出現一些簡單的失誤，這些錯誤是一般使用者容易避免的。例如，在一個任務中，它未能完成訂閱，因為沒有向下捲動網頁找到相應的按鈕。

還有一些情況下，它在執行顯而易見的任務時，例如選擇和替換文字或將項目符號更改為數字，表現得十分笨拙。此外，Claude 有時並沒有意識到自己的錯誤，或對未能達成目標的原因做出錯誤假設。

研究人員指出，Claude 在自我評估機制方面的不足可能是導致這些失誤的原因，未來可能需要改進GUI 代理框架，以便增加更嚴格的自我評估模組。研究結果也顯示，現有的GUI 代理程式並不能完全復刻人類使用電腦時的基本細微差別。

對企業而言，使用簡單文字描述自動化任務的潛力十分誘人，但目前這項技術尚未達到大規模應用的成熟度。模型的行為不穩定，可能導致在敏感應用中的不可預測後果。同時，透過人類設計的介面來執行操作，也並不是完成任務最快的方法。

在廣泛部署之前，企業還需專注於將大型語言模型（LLM）授權滑鼠和鍵盤所帶來的安全風險。例如，有研究顯示，網路代理容易受到人類能夠輕易忽視的對抗性攻擊。儘管如此，像Claude 這樣的工具仍可以幫助產品團隊探索創意，迭代解決方案，從而在開發新功能或服務之前節省時間和成本。

Claude的「電腦使用」功能展現了AI技術進步的巨大潛力，但也揭示了其在可靠性和安全性方面仍需改進的空間。未來，隨著科技的不斷發展與完善，相信類似Claude這樣的AI工具將能更好地服務人類，提高效率，並帶來更多可能性。