人間のようにコンピューター機能を操作するクロードのサポートは、研究における利点と限界を示す - AI 記事

著者：Eve Cole 更新時間：2025-01-25 18:48:01

10 月にリリースされた Anthropic の Claude の「コンピューター使用」機能により、AI エージェントにグラフィカルユーザーインターフェイス (GUI) を通じて人間と対話する前例のない機能が提供され、広く注目を集めました。この機能は従来の API インターフェイスの制限を打ち破り、クロードがコンピュータを直接制御してより複雑なタスクを完了できるようにします。シンガポール国立大学ショーラボによる研究では、さまざまなシナリオでのパフォーマンスを評価するためにクロードの包括的なテストを実施し、このテクノロジーの可能性と限界を示しました。

Anthropic が 10 月にクロードの「コンピューター使用」機能を開始して以来、AI エージェントの機能は幅広い注目を集めています。この機能により、クロードは人間と同じグラフィカルユーザーインターフェイス (GUI) を通じて対話できる最初の最先端モデルになります。

Claude は、デスクトップのスクリーンショットにアクセスし、キーボードとマウスの操作でタスクを完了することで、API インターフェイスを必要とせずに操作を自動化する便利な方法をユーザーに提供します。

シンガポール国立大学ショーラボが実施した研究では、研究者らはウェブ検索、ワークフローの完了、オフィスの生産性、ビデオゲームなどのさまざまなタスクでクロードをテストした。これらのタスクでは、Web 上で商品を検索して購入したり、Web サイトから情報を抽出してスプレッドシートに挿入したりするなど、さまざまなシナリオでクロードの能力をテストしました。これらのテストを通じて、研究者らは計画、行動、評価の 3 つの側面に沿ってクロードのパフォーマンスを評価しました。

複雑なタスクの実行に関しては、クロードのパフォーマンスは印象的です。明確な計画を立て、それを段階的に実行し、各段階での進捗状況を評価する能力です。さらに、情報 Web ページをスプレッドシートにコピーするなど、複数のアプリケーション間を調整できます。場合によっては、クロードはミッションの終了時に結果をレビューして、すべてが目標どおりであることを確認することもできます。

ただし、クロードは、平均的なユーザーであれば簡単に回避できる単純な間違いもいくつか犯します。たとえば、あるタスクでは、ページを下にスクロールして対応するボタンを見つけることができなかったため、サブスクリプションを完了できませんでした。

また、テキストを選択して置換したり、箇条書きを数字に変更したりするなど、明白なタスクを実行するときに扱いにくい場合もありました。さらに、クロードは時々自分の間違いに気づかなかったり、目標を達成できなかった理由について誤った推測をしたりすることがあります。

研究者らは、Claude の自己評価メカニズムの不備がこれらのエラーの原因である可能性があり、より厳密な自己評価モジュールを追加するには、将来 GUI エージェントフレームワークを改善する必要があるかもしれないと指摘しました。この結果は、既存の GUI エージェントが人間のコンピュータの使い方の基本的なニュアンスを完全には再現していないことも示しています。

企業にとって、単純なテキストを使用して自動化されたタスクを説明できる可能性は魅力的ですが、このテクノロジーはまだ大規模に導入する準備ができていません。モデルの動作は不安定であり、機密性の高いアプリケーションでは予期せぬ結果を招く可能性があります。同時に、人間が設計したインターフェイスを介して操作を実行することは、タスクを完了する最速の方法ではありません。

企業は、広範囲に導入する前に、大規模言語モデル (LLM) をマウスやキーボードに委ねることによってもたらされるセキュリティリスクについても懸念する必要があります。たとえば、ネットワークプロキシは、人間が簡単に無視できる敵対的な攻撃に対して脆弱であることが研究で示されています。それでも、Claude のようなツールは、製品チームがアイデアを検討してソリューションを反復するのに役立ち、新しい機能やサービスを開発する前に時間と費用を節約できます。

ハイライト:

1. クロードは、グラフィカルユーザーインターフェイスを通じて複雑なタスクを自動化する能力に優れています。

2. クロードは、自己評価メカニズムが不十分であることを反映して、単純なタスクを実行するときに間違いを犯します。

3. 現段階では、このテクノロジーは大規模なアプリケーションには適しておらず、企業は潜在的なセキュリティリスクに注意する必要があります。

全体として、Claude の「コンピューターの使用」機能は、自動化の分野における AI の大きな可能性を示していますが、安定性とセキュリティの点でまだ改善が必要な領域も明らかにしています。将来的には、テクノロジーの継続的な開発と改善により、クロードのような AI エージェントはより多くの分野で重要な役割を果たすことになります。