Anthropic が 10 月にリリースした Claude の「コンピュータ利用」機能は、AI エージェント機能で注目を集めており、人間と同じグラフィカル ユーザー インターフェイス (GUI) を通じて対話できる初の最先端モデルとなりました。 Downcodes の編集者は、このテクノロジーの画期的な進歩、直面する課題、将来の開発の方向性について深く理解することができます。
Anthropic が 10 月にクロードの「コンピューター使用」機能を開始して以来、AI エージェントの機能は幅広い注目を集めています。この機能により、クロードは人間と同じグラフィカル ユーザー インターフェイス (GUI) を通じて対話できる初の最先端モデルになります。
Claude は、デスクトップのスクリーンショットにアクセスし、キーボードとマウスの操作でタスクを完了することで、API インターフェイスを必要とせずに操作を自動化する便利な方法をユーザーに提供します。
シンガポール国立大学ショーラボが実施した研究では、研究者らはウェブ検索、ワークフローの完了、オフィスの生産性、ビデオゲームなどのさまざまなタスクでクロードをテストした。これらのタスクでは、Web 上で商品を検索して購入したり、Web サイトから情報を抽出してスプレッドシートに挿入したりするなど、さまざまなシナリオでクロードの能力をテストしました。これらのテストを通じて、研究者らは計画、行動、評価の 3 つの側面に沿ってクロードのパフォーマンスを評価しました。
複雑なタスクの実行に関しては、クロードのパフォーマンスは印象的です。明確な計画を立て、それを段階的に実行し、各段階での進捗状況を評価する能力です。さらに、情報 Web ページをスプレッドシートにコピーするなど、複数のアプリケーション間を調整できます。場合によっては、クロードはミッションの終了時に結果をレビューして、すべてが目標どおりであることを確認することもできます。
ただし、クロードは、平均的なユーザーであれば簡単に回避できる単純な間違いもいくつか犯します。たとえば、あるタスクでは、ページを下にスクロールして対応するボタンを見つけることができなかったため、サブスクリプションを完了できませんでした。
また、テキストを選択して置換したり、箇条書きを数字に変更したりするなど、明白なタスクを実行するときに扱いにくい場合もありました。さらに、クロードは時々自分の間違いに気づかなかったり、目標を達成できなかった理由について誤った推測をしたりすることがあります。
研究者らは、Claude の自己評価メカニズムの不備がこれらのエラーの原因である可能性があり、より厳密な自己評価モジュールを追加するには、将来 GUI エージェント フレームワークを改善する必要があるかもしれないと指摘しました。この結果は、既存の GUI エージェントが人間のコンピュータの使い方の基本的なニュアンスを完全には再現していないことも示しています。
企業にとって、単純なテキストを使用して自動化されたタスクを説明できる可能性は魅力的ですが、このテクノロジーはまだ大規模に導入する準備ができていません。モデルの動作は不安定であり、機密性の高いアプリケーションでは予期せぬ結果を招く可能性があります。同時に、人間が設計したインターフェイスを介して操作を実行することは、タスクを完了する最速の方法ではありません。
企業は、広範囲に導入する前に、大規模言語モデル (LLM) をマウスやキーボードに委ねることによってもたらされるセキュリティ リスクについても懸念する必要があります。たとえば、ネットワーク プロキシは、人間が簡単に無視できる敵対的な攻撃に対して脆弱であることが研究で示されています。それでも、Claude のようなツールは、製品チームがアイデアを検討してソリューションを反復するのに役立ち、新しい機能やサービスを開発する前に時間と費用を節約できます。
クロードの「コンピューターの使用」機能は、AI テクノロジーの進歩の大きな可能性を示していますが、信頼性とセキュリティの点で改善の余地があることも明らかにしています。将来的には、テクノロジーが発展し、改善し続けるにつれて、クロードのような AI ツールがより人間に役立ち、効率が向上し、より多くの可能性をもたらすと私は信じています。