Downcodes の編集者は、人工知能企業 Anthropic が Claude 3.5 シリーズのモデルをアップグレードし、新しい Claude 3.5 Sonnet と Claude 3.5 Haiku を発売したことを知りました。このアップグレードの主なハイライトは、コーディング機能が大幅に向上し、クロードにコンピューター上で人間の操作をシミュレートする機能が与えられることです。これは、商用 AI モデルを包括的な「AI エージェント」に拡張する Anthropic の重要な一歩を示しています。 SWE ベンチ検証での Sonnet のスコアは 49.0% に増加し、OpenAI の o1 プレビュー モデルを含む、公開されているすべてのモデルを上回りました。 Haiku は、より高速で正確なコマンド追従機能により、複数のインテリジェントなベンチマーク テストで優れたパフォーマンスを発揮します。このアップグレードにより、より強力な AI 支援ツールと、より便利なエクスペリエンスが開発者とユーザーに提供されます。
人工知能企業 Anthropic は、新しい Claude 3.5 Sonnet と Claude 3.5 Haiku を含む、Claude 3.5 シリーズ モデルのメジャー アップグレードを発表しました。アップグレードされたバージョンでは、人工知能が PC を乗っ取り、キーボード入力やマウスのクリックをシミュレートするなどの基本的なタスクを実行して、コンピューターにインストールされているアプリケーションを使用できるようになると主張しています。
コーディング機能が大幅に向上し、OpenAI o1-preview モデルを上回りました。
新しい Claude3.5Sonnet は、特にコーディング機能の点で、あらゆる面で大幅に改善されました。 SWE ベンチ検証済みのスコアは 33.4% から 49.0% に増加し、OpenAI の o1 プレビュー モデルを含むすべての公開モデルを上回りました。
さらに、TAU ベンチでのパフォーマンスも、特に小売業界や航空業界で向上しました。これらすべてを、前モデルと同じ価格と速度を維持しながら行います。
お客様からのフィードバックは、アップグレードされた Claude3.5Sonnet が AI コーディングにおいて質的な飛躍を遂げたことを示しています。たとえば、GitLab は DevSecOps タスク用にこのモデルをテストし、レイテンシを増加させることなく推論機能が大幅に向上していることがわかりました。
Claude3.5Haiku は Claude の次世代最速モデルであり、同じコストと速度で Claude3Opus を上回り、複数のスマート ベンチマーク、特にエンコード タスクで優れたパフォーマンスを発揮します。 Claude3.5Haiku の低遅延とより正確なコマンド追従機能により、ユーザー インターフェイス製品やパーソナライズされたエクスペリエンスの生成に非常に適しています。
人間のようにコンピュータを操作する
今回新たに開始したパソコン利用機能は、全く新しい試みです。当局者らによると、これはクロードに特定のツールを開発するためではなく、さまざまな標準ツールやソフトウェアプログラムを使用できるように一般的なコンピュータースキルを教えるためだという。開発者はこの機能を使用して、反復的なプロセスの自動化、ソフトウェアの構築とテスト、オープンリサーチの実施などを行うことができます。
もちろん、クロードの現在のコンピューター使用能力はまだ改善する必要があります。スクロールやドラッグなどのいくつかの単純な操作は、クロードにとって依然として困難です。安全性を確保するために、当局はコンピュータの使用が潜在的な危害を引き起こしたかどうかを識別できる新しい分類器も開発した。
Anthropic 社の最高科学責任者、ジャレッド・カプラン氏はインタビューで、「私たちは、個人としてタスクを完了するために人工知能が使用するすべてのツールを活用できる新しい時代に入ろうとしています。商用 AI の拡大において重要な一歩が踏み出されました」と語った。従来のチャット フレームワークから本格的な「AI エージェント」までのモデル。
あるデモでは、クロードさんは友人のためにゴールデンゲートブリッジの日の出を見る旅行を計画するように頼まれた。 AIはウェブページを開くだけでなく、Googleで適切な閲覧スポットを見つけて、カレンダーアプリに旅程を追加しました。このパフォーマンスは印象的ですが、目的地への行き方などの追加情報は提供されていないと Wired は指摘しています。
さらに、別のデモンストレーションでは、クロードは簡単な Web サイトを構築するように求められ、その結果、Microsoft の Visual Studio Code を使用して Web サイトを作成し、テスト用にローカル サーバーを開くことに成功しました。ただし、途中でいくつかの小さなバグが発生しましたが、プロンプトに従ってコードを正常に修正しました。
Claude 3.5 Sonne は、顧客関係管理システム (CRM) から必要な情報を取得してサプライヤー要求フォームを自律的に入力することにより、さまざまなソフトウェア プラットフォーム上で複数ステップのタスクを実行する能力を実証しました。
アップグレードされた Claude3.5Sonnet がすべてのユーザーに利用可能になりました。本日より、開発者は Anthropic API、Amazon Bedrock、Google Cloud の Vertex AI 上でコンピューターのベータ版を構築できるようになります。新しい Claude3.5Haiku は今月後半にリリースされる予定です。
公式ブログ:https://www.anthropic.com/news/3-5-models-and-computer-use
ハイライト:
Claude3.5Sonnet および Haiku モデルが大幅にアップグレードされ、コーディング機能が大幅に向上しました。
?新たに搭載されたコンピュータ利用機能により、クロードが人間のようにコンピュータを操作できるようになり、さらなる可能性が広がります。
? AI アシスタントの使用には安全上のリスクが伴い、Anthropic は安全を確保するために段階的な観察と改善を重視しています。
全体として、Anthropic の Claude 3.5 シリーズ モデルのアップグレードは、AI テクノロジーの急速な発展を示しており、将来的には AI がより多くの分野でより強力な役割を果たすことを示しています。まだまだ課題はあるものの、その発展に期待したい。 Downcodes の編集者は、この分野の最新の開発に今後も注目し、読者にさらに刺激的なレポートをお届けしていきます。