Google Gemini バージョン 2.0 が正式にリリースされました: 2.0 Flash がマルチモーダル出力をサポートするようになりました

著者：Eve Cole 更新時間：2024-12-20 16:00:02

Google は最新世代の人工知能モデル Gemini 2.0 をリリースし、一般的な人工知能アシスタントの分野における Google の大きな進歩を示しました。 Gemini 2.0 では、マルチモーダル処理とツールの使用法が大幅に改善され、世界とユーザーコマンドの実行をより深く理解できるようになります。このモデルは Gemini バージョン 1.0 および 1.5 に基づいて開発され、複数の Google 製品に適用され、世界中の何百万ものユーザーにサービスを提供しています。この記事では、Gemini 2.0の機能と、Google製品や開発者エコシステムへの影響について詳しく紹介します。

Googleとその親会社Alphabetの最高経営責任者（CEO）であるSundar Pichai氏は、同社が最新の人工知能モデルGemini 2.0を発表したと発表した。これは、GoogleにとってユニバーサルAIアシスタントの構築における重要な一歩となる。 Gemini 2.0 は、マルチモーダル入力処理とネイティブツールの使用における大幅な進歩を実証し、AI エージェントが周囲の世界をより深く理解し、ユーザーの監督下でユーザーに代わってアクションを実行できるようにします。

Gemini2.0 は、その前身である Gemini1.0 および 1.5 に基づいて開発されており、初めてネイティブマルチモーダル処理機能を実現し、テキスト、ビデオ、画像、オーディオ、コードなどのさまざまな種類の情報を理解できます。現在、何百万もの開発者が Gemini を使用して開発を行っており、Google は 20 億人のユーザーにサービスを提供する 7 つの製品を含む製品を再考し、新しい製品を開発するようになっています。 NotebookLM は、マルチモーダルおよびロングコンテキスト機能の一例であり、広く愛されています。

微信截图_20241212080452.png

Gemini 2.0 のリリースは、Google の新しいエージェント時代への突入を告げるものです。このモデルには、ネイティブの画像および音声出力機能と、ネイティブツールの使用機能が備わっています。 Google は、開発者と信頼できるテスターが Gemini 2.0 を利用できるようにし始めており、Gemini と検索から始めて、Gemini 2.0 を製品に迅速に統合する予定です。今後、Gemini2.0 Flash 実験モデルはすべての Gemini ユーザーに公開されます。同時に、Google は Deep Research と呼ばれる新機能も開始しました。この機能は、高度な推論と長いコンテキスト機能を使用して、リサーチアシスタントとして機能し、複雑なトピックを調査し、ユーザーに代わってレポートを作成します。この機能は現在、Gemini Advanced で利用可能です。

検索は AI の影響を最も受けている製品の 1 つであり、Google の AI の概要は現在 10 億人に到達し、まったく新しい質問をすることができるようになり、すぐに Google で最も人気のある検索機能の 1 つになりました。次のステップとして、Google は Gemini 2.0 の高度な推論機能を AI 概要に導入し、高度な数式、マルチモーダルクエリおよびエンコードなど、より複雑なトピックや複数ステップの問題を解決します。限定的なテストは今週開始され、来年初めにはより広範な展開が予定されています。 Google は今後 1 年間、AI 概要をより多くの国と言語に提供し続ける予定です。

Google はまた、Gemini 2.0 のネイティブマルチモーダル機能を通じて、エージェント研究における最先端の成果を実証しました。 Gemini 2.0 Flash は、これまで開発者の間で最も人気のあるモデルである 1.5 Flash を改良し、同様に応答時間が高速です。注目すべきことに、2.0 Flash は主要なベンチマークで 1.5 Pro の 2 倍の速度を上回っています。 Flash 2.0 は新しい機能ももたらします。画像、ビデオ、オーディオなどのマルチモーダル入力のサポートに加え、Flash 2.0 では、テキストと混合されたネイティブ生成画像や制御可能な多言語音声合成 (TTS) オーディオなどのマルチモーダル出力もサポートされるようになりました。また、Google 検索、コード実行、サードパーティのユーザー定義関数などのツールをネイティブに呼び出すこともできます。

微信截图_20241212080808.png

Gemini 2.0 Flash は実験モデルとして開発者に提供されており、Google AI Studio と Vertex AI の Gemini API を介してすべての開発者がマルチモーダル入力とテキスト出力を利用できるほか、早期アクセスパートナーはテキスト読み上げとネイティブイメージ生成を利用できます。一般発売は 1 月に行われ、モデルサイズも追加されます。

開発者が動的でインタラクティブなアプリケーションを構築できるようにするために、Google は、リアルタイムのオーディオおよびビデオのストリーミング入力機能と、複数の組み合わせツールを使用する機能を備えた新しいマルチモーダルリアルタイム API もリリースしました。

本日より、世界中の Gemini ユーザーは、デスクトップおよびモバイル Web のモデルドロップダウンメニューから選択することで、チャットに最適化されたバージョンの 2.0 Flash 実験にアクセスできるようになり、まもなく Gemini モバイルアプリでも利用できるようになります。来年初めに、Google は Gemini 2.0 をさらに多くの Google 製品に拡張する予定です。

全体として、Gemini 2.0 のリリースは、Google が AI 分野で新たな一歩を踏み出したことを意味しており、その強力なマルチモーダル機能とツールの統合により、開発者とユーザーにより豊かなエクスペリエンスが提供され、より多くの分野で AI テクノロジーの応用が促進されます。 . 開発と応用。将来的には、Gemini 2.0 は Google の製品エコシステムにさらに統合され、よりインテリジェントで便利なサービスをユーザーに提供する予定です。