OpenAI は、ChatGPT Plus 加入者向けに待望の音声モードのアルファ版をリリースしようとしています。この機能は主力モデル GPT-4o に基づいており、音声対話エクスペリエンスが大幅に向上します。 GPT-4o モデルは、人間の反応に近い速度で音声入力を処理でき、テキスト、ビジョン、オーディオの 3 つのモダリティのエンドツーエンドのトレーニングを組み合わせて、マルチモーダル AI の分野における OpenAI の最新の進歩を実証します。以前は、モデル コンテンツのモデレーションとインフラストラクチャ構築を改善する必要があるため、この機能のロールアウトは遅れていました。このアップデートにより、既存の ChatGPT 音声モードにおける過度の遅延の問題が解決されるだけでなく、ユーザーはよりスムーズで自然な音声会話体験を得ることができます。
OpenAIのフラッグシップモデル「GPT-4o」(oはオムニの略)が5月に発売されると、その音声理解機能が大きな注目を集めた。 GPT-4o モデルは、平均 320 ミリ秒で音声入力に応答できました。これは、一般的な会話における人間の反応時間と同様です。
OpenAI はまた、ChatGPT の音声モード機能が GPT-4o モデルのオーディオ機能を活用して、ユーザーにシームレスな音声会話体験を提供すると発表しました。 GPT-4o の音声機能について、OpenAI チームは次のように書いています。
GPT-4o を使用して、テキスト、ビジュアル、オーディオの 3 つのモダリティをエンドツーエンドでトレーニングする新しいモデルをトレーニングしました。つまり、すべての入力と合計が同じニューラル ネットワークによって処理されます。 GPT-4o はこれらすべてのモダリティを組み合わせた最初のモデルであるため、まだモデルの可能性と限界の表面をなぞっただけです。
6月にOpenAIは、後日ChatGPT Plusユーザーの小グループに高度な言語モードをアルファ版で展開する計画を発表したが、特定のコンテンツを検出して拒否するモデルの能力を向上させる必要があるため、計画は1か月遅れた。 。さらに、OpenAI は、リアルタイムの応答性を維持しながら、数百万のユーザーに拡張できるインフラストラクチャを準備しています。
さて、OpenAI CEO の Sam Altman 氏は、音声モードのアルファ版が来週から ChatGPT Plus 加入者に展開されることを X 経由で確認しました。
現在の ChatGPT 音声モードは、平均遅延が 2.8 秒 (GPT3.5) および 5.4 秒 (GPT-4) であるため、直感的に使用することができません。 GPT-4o に基づく今後の高度な音声モードにより、ChatGPT 加入者は遅延のないスムーズな会話が可能になります。
さらに、OpenAI は本日、Web 検索エクスペリエンスにおける新しい試みである、待望の SearchGPT もリリースしました。現在プロトタイプである SearchGPT は、明確で関連性のあるソースから正確な回答を迅速に提供できる人工知能検索機能を提供します。詳細については、こちらをご覧ください。
全体として、OpenAI の一連のアップデートは、人工知能の分野で革新を続ける能力を示しており、特に GPT-4o モデルの適用によりユーザー エクスペリエンスが大幅に向上し、SearchGPT のリリースは新しい方向性を示しています。今後の検索エンジンの開発。 今後もOpenAIがもたらすさらなる驚くべき技術革新に期待しています。