Amazon の AGI チームは最近、100,000 時間の録音データを使用してトレーニングされた 980 億のパラメーターを備えたテキスト読み上げモデルである BASE TTS をリリースしました。これは現在この種のモデルとしては最大です。このモデルのリリースは、テキスト読み上げ技術の大幅な進歩を示すものであり、その多数のパラメータと膨大なトレーニング データにより、音声合成の自然さと擬人化が大幅に向上し、ユーザーにより良い音声体験がもたらされることが期待されています。 チームの目標は、このモデルを学習アプリケーションに適用して、テキスト読み上げアプリケーションにおける人間の音声の品質をさらに向上させることです。
Amazon AGI チームは、980 億のパラメーターを持ち、100,000 時間の録音データを使用してトレーニングされた史上最大のテキスト読み上げモデルである BASE TTS をリリースしました。チームは、このモデルを学習アプリケーションに使用して、テキスト読み上げアプリケーションにおける人間の音声の品質を向上させることを計画しています。
BASE TTS モデルのリリースは、人工知能分野における Amazon の強力な強みと将来の音声テクノロジーに対するビジョンを示しており、より自然でリアルな人工音声の到来を告げ、さまざまなアプリケーションシナリオに豊かな可能性をもたらします。 今後、BASE TTSはより多くの分野で活躍し、より便利でより良いサービスをユーザーに提供することが期待されます。