Alibaba Tongyi Lab の音声チームは、CosyVoice 2.0 を発表しました。この大規模なオープンソース音声生成モデルは、音声合成技術に大きな進歩をもたらしました。 CosyVoice 2.0は、前世代のバージョンと比較して、精度、安定性、自然さが大幅に向上し、双方向ストリーミング音声合成を実現し、合成遅延が大幅に減少しました。このアップグレードは技術レベルに反映されるだけでなく、ユーザーエクスペリエンスの質的な飛躍をもたらし、より豊かで便利な音声合成サービスをユーザーに提供します。
Alibaba Tongyi Lab の音声チームは、大規模なオープンソース音声生成モデル CosyVoice がバージョン 2.0 にアップグレードされたことを発表しました。このアップグレードにより、音声生成テクノロジーの精度、安定性、自然な体験が大幅に向上しました。 CosyVoice2.0 は、オフラインとストリーミング モデリングを統合した音声生成ラージ モデル テクノロジーを採用し、双方向ストリーミング音声合成を実現します。最初のパケット合成遅延は 150 ミリ秒に達し、音声合成の応答速度が大幅に向上します。
発音の正確さの点では、CosyVoice2.0 は以前のバージョンと比較して 30% ~ 50% の誤り率の減少を実現しており、特に合成舌において、Seed-TTS テスト セットのハード テスト セットで最も低い単語誤り率を達成しています。ツイスター、ポリフォニックキャラクターとレアキャラクターで優れたパフォーマンス。さらに、バージョン 2.0 では、ゼロサンプル音声生成と言語間音声合成における音色の一貫性が維持され、特に言語間音声合成機能がバージョン 1.0 に比べて大幅に向上しました。
CosyVoice2.0 では、合成音声のリズム、音質、感情的なマッチングも向上し、MOS 評価スコアは 5.4 から 5.53 に向上し、大規模な商用音声合成モデルのスコアに近づきました。同時に、バージョン 2.0 は、よりきめ細かい感情制御と方言アクセント制御をサポートし、広東語、四川語、鄭州語、天津語、長沙語などの主要な方言や役割を含む、より豊富な言語の選択肢をユーザーに提供します。ロボットの真似、ペッパピッグ風のスピーチなどの機能を再生します。
CosyVoice2.0 のアップグレードは、音声合成技術と経験を向上させるだけでなく、オープンソース コミュニティの開発をさらに促進し、より多くの開発者が音声処理技術の革新と応用に参加することを奨励します。
GitHub リポジトリ: CosyVoice (https://github.com/FunAudioLLM/CosyVoice) 最新の更新された CosyVoice2 をチェックしてください
オンラインでデモを体験: https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B
オープンソースコード: https://github.com/FunAudioLLM/CosyVoice
オープンソース モデル: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B
CosyVoice 2.0 のオープンソースは、音声合成技術の普及と開発をさらに促進し、開発者と研究者に強力なツールとリソースを提供し、より革新的なアプリケーションの出現を期待します。体験してダウンロードするには、提供されているリンクにアクセスしてください。