Google の Gemini 2.0 のメジャー リリースは、人工知能がエージェント時代に移行するための重要なステップを示しています。このアップグレードにより、パフォーマンスが大幅に向上するだけでなく、マルチモーダル機能とネイティブ ツールの使用において画期的な進歩が達成されます。 Gemini 2.0 は、テキスト、画像、ビデオ、オーディオなどの複数形式の入力をサポートし、ネイティブ画像生成やテキスト読み上げなどのマルチモーダル出力機能を初めてサポートし、情報をより便利にすることを目指しています。 Googleは、ユーザーエクスペリエンスをさらに向上させるために、Gemini 2.0をGoogle検索や新しく開始された「Deep Research」機能などの自社製品エコシステムに迅速に統合する予定だ。
Google は本日、同社のこれまでで最も強力な AI モデルである最新世代の人工知能モデル Gemini 2.0 の発売を発表しました。このメジャー アップグレードは、パフォーマンスを大幅に向上させるだけでなく、人工知能がエージェント時代に移行するための重要なステップを示します。
Google と Alphabet の CEO である Sundar Pichai 氏によると、Gemini 2.0 はマルチモーダル機能とネイティブ ツールの使用の両方で画期的な進歩を遂げました。新モデルは、テキスト、画像、ビデオ、オーディオなどの複数形式の入力を理解して処理できるだけでなく、ネイティブ画像生成やテキスト読み上げなどのマルチモーダル出力機能も初めてサポートします。
「Gemini 1.0が情報の整理と理解に関するものであるとすれば、Gemini 2.0は情報をより有用なものにすることに関するものです」とピチャイ氏は述べた。現在、このモデルは開発者と信頼できるテスターに公開されています。
技術革新と性能向上Google DeepMind の CEO、Demis Hassabis 氏は、リリースの最初のバッチが Gemini 2.0 Flash の実験版であることを明らかにしました。このバージョンでは、低遅延を維持しながらパフォーマンスが大幅に向上しました。特に、2.0 Flash は主要なベンチマークで 1.5 Pro を上回り、応答性が 2 倍になっています。
新しいモデルは、Google の第 6 世代 TPU Trillium ハードウェア プラットフォーム上で実行されます。これは、Gemini2.0 のトレーニングと推論を 100% サポートするインフラストラクチャでもあります。現在、このプラットフォームは顧客に公開されています。
実際のアプリケーションと製品の統合Google は、Gemini 2.0 を自社の製品エコシステムに迅速に統合する予定です。今後、世界中の Gemini ユーザーは Web バージョンを通じて 2.0 Flash 実験版の使用を選択できるようになり、モバイル アプリケーション版も間もなく開始される予定です。さらに、Google 検索の AI 概要機能には、2.0 の高度な推論機能も統合され、より複雑なトピックや複数ステップの問題を解決します。
Googleが「Deep Research」と呼ばれる新機能も発表したことは注目に値する。この機能はGemini Advancedで利用可能となり、複雑なトピックを調査し、レポートを自動的に生成するリサーチアシスタントとして機能する。
AI エージェントの未来を探るこのリリースでは、Google は Gemini 2.0 上に構築されたいくつかの研究プロトタイプ プロジェクトもデモしました。
Project Astra: 多言語会話機能、Google 検索、レンズ、マップなどのツールの利用機能、最大 10 分間の会話記憶機能を備えた汎用 AI アシスタントのプロトタイプです。 Project Mariner: これは、Web 上のさまざまな種類の情報を理解し、推論することができ、ユーザーが Chrome 拡張機能を通じてタスクを完了できるように支援するブラウザー インタラクション プロトタイプです。 WebVoyager ベンチマークでは、最高の結果の 83.5% を達成しました。 Jules: これは開発者向けの AI コード エージェントで、GitHub ワークフローに直接統合して、問題解決とタスクの実行を支援します。安全性と責任ある開発これらのイノベーションを推進する一方で、Google はセキュリティと責任ある開発の重要性を特に重視しています。同社は、AI エージェントの安全な使用を確保するためにいくつかの対策を講じています。
責任安全委員会 (RSC) と協力して潜在的なリスクを特定し、理解する AI 支援のレッドチーム手法を改善して、リスク評価と緩和機能を強化する マルチモーダル入出力のためのセキュリティ評価とトレーニング メカニズムを確立する プロジェクトに悪意のあるコマンドに対する保護を追加するマリナーメカニズムの今後の展望Gemini 2.0 のリリースは、AI 開発における重要なマイルストーンとみなされています。 Google は、高度なマルチモーダル機能とエージェント機能を組み合わせることで、AI テクノロジーの進歩に対する野心を示しています。これらの新機能がさまざまな製品に徐々に統合されることで、ユーザーはよりスマートで実用的な AI アシスタント サービスを体験できるようになります。
ただし、GoogleはAIエージェント技術がまだ初期段階にあり、信頼できるテスターと協力してフィードバックを収集し続け、技術を継続的に改善する必要があることも認めた。当社は、安全性と倫理基準を確保しながら、新たな可能性を探求しながら、責任ある方法で AI テクノロジーの開発を推進し続けることに取り組んでいます。
詳細については、https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents をご覧ください。
全体として、Gemini 2.0 のリリースは、人工知能分野における Google の強力な強みと将来の開発に対する先見の明を示しており、また、人工知能技術が人々の生活にさらに浸透し、より便利でスマートなサービスを人々にもたらすことを示しています。 しかし同時に、安全性と倫理的な問題には依然として継続的な注意と解決が必要です。