Googleの最新の音声生成テクノロジーは、業界標準を再び更新しました。この画期的なテクノロジーは、3秒で最大2分間の自然な会話を生み出すだけでなく、複数のスピーカー間で音声一貫性と音質パフォーマンスを保証します。このテクノロジーは、Gemini LiveやProject Astraなどの複数のGoogle製品で使用されており、世界中のデジタルアシスタントやAIツールとの対話方法を変えています。
過去数年にわたって、Googleはオーディオ生成の分野での研究に焦点を当ててきました。彼らが開発したモデルは、テキスト、リズムコントロール、特定の音などのさまざまな入力方法を通じて、高品質で自然な音声を作成できます。最近、Googleは複数の内部チームと協力して、2つの重要な機能を立ち上げました。アップロードされたドキュメントを鮮明な会話に変換できます。
これらのブレークスルーは、Googleの以前のいくつかの研究結果に基づいています。 SoundStream Neural Audio Codecs、Audiolm Audio Language Modeling Framework、SoundStormまで、30秒以上の会話を生成できるSoundStormまで、Googleは音声生成の分野で常に革新しています。最新の技術的ブレークスルーでは、出力の品質を維持しながら、600ビットの低いレートでオーディオを圧縮できるより効率的な音声コーデックを使用します。
この技術的なブレークスルーを達成するために、Googleは情報階層を効率的に処理できる特別な変圧器アーキテクチャを開発しました。このモデルは、数十万時間の音声データで最初に事前に訓練され、次に実際の会話でトーンポーズなどの自然な特徴を含む高品質の会話データセットで微調整されています。テクノロジーの責任ある使用を確保するために、GoogleはAIが生成したオーディオコンテンツに透かしを追加するためにSynthIDテクノロジーを統合しました。
Googleは今後、モデルの滑らかさ、音質を向上させ、より詳細なコントロールを追加するために取り組んでいます。 Geminiシリーズのモデルと組み合わせることで、このテクノロジーは、教育経験とコンテンツのアクセシビリティを改善し、音声テクノロジーにより多くの可能性をもたらす上で重要な役割を果たすことが期待されています。
このテクノロジーの重要性は、パフォーマンスの改善だけでなく、人間コンピューターの相互作用のための新しい章の開設にもあります。複雑な技術革新を自然で直感的な相互作用方法に変換することにより、Googleは次世代のデジタルエクスペリエンスの基盤を築いています。
詳細:https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/
Googleの音声生成テクノロジーは、技術的な飛躍であるだけでなく、人間コンピューターの相互作用の革新的な進歩でもあり、将来のデジタル世界に無制限の可能性をもたらします。