Alibaba Damo Academy Tongyi Laboratory は、ClearerVoice-Studio と呼ばれる音声処理技術をオープンソース化しました。これは、音声の品質と明瞭度を向上させ、環境騒音、残響、および機器のピックアップによって引き起こされる音声明瞭度の課題を解決することを目的としています。このテクノロジーは、音声強調、音声分離、オーディオおよびビデオの話者抽出などの機能を統合し、高度な複雑領域深層学習アルゴリズムを採用して、音声ノイズの低減と分離のパフォーマンスを大幅に向上させ、音声の明瞭さを最大限に維持し、同時に音声の歪みも最小限に抑えられます。そのコアモデルには、2022 IEEE/INTER Speech DNS Challenge で総合 2 位を獲得した FRCRN モデルと、音声分離タスクで優れたパフォーマンスを発揮した MossFormer シリーズのモデルが含まれており、開発者や研究者に強力な音声処理ツールを提供します。
Alibaba Damo Academy の Tongyi Laboratory は最近、音声品質と明瞭度の向上を目的とした ClearerVoice-Studio と呼ばれる音声処理技術をオープンソース化すると発表しました。音声技術の普及に伴い、特に環境騒音、反響、機器のピックアップが存在する場合、音声品質への注目がますます高まっており、音声処理技術の需要がますます高まっています。
ClearerVoice-Studio は、音声強調、音声分離、オーディオおよびビデオ話者抽出などの機能を統合し、複雑なドメインの深層学習アルゴリズムを統合することで、音声ノイズの低減と分離のパフォーマンスを大幅に向上させます。この技術は背景ノイズを最大限に除去し、音声の明瞭度を維持しながら音声の歪みを最小限に抑えます。
ClearerVoice-Studio のコア モデルとアルゴリズムには、2022 IEEE/INTER Speech DNS Challenge で総合 2 位を獲得した FRCRN モデルと、音声分離タスクで優れたパフォーマンスを発揮した MossFormer シリーズのモデルが含まれます。 MossFormer2 に基づく 48kHz 音声強調モデルは、ノイズを効果的に抑制しながら音声の歪みを大幅に軽減します。
Alibaba Tongyi Lab は、開発者、研究者、企業に ClearerVoice-Studio プラットフォームを通じて強力な音声処理ツールを提供し、革新的なアプリケーションの実装を支援したいと考えています。ユーザーはオンラインでデモを体験し、ノイズを含む音声ファイルを用意して指定ページにアップロードし、ワンクリックで処理してオンラインで聞く、または処理結果をダウンロードすることで、瞬時にクリアな音質と優れたノイズ低減効果を得ることができます。
GitHub リポジトリ: https://github.com/modelscope/ClearerVoice-Studio
オンライン体験デモ: https://huggingface.co/spaces/alibabasglab/ClearVoice
ClearerVoice-Studio は、ユーザーがすぐに使い始められるよう、便利なオンライン エクスペリエンスと GitHub ウェアハウスを提供します。この技術のオープンソース化により、音声処理技術の進歩と応用が促進され、より多くの音声関連分野に革新がもたらされるでしょう。将来的には、その幅広い応用シナリオが期待されます。