リアルタイム音声通信では、意味論や韻律に影響を与えずに話者の音色を変更することが常に技術的な問題となっていました。 Downcodes のエディターは本日、音声の内容とリズムを維持しながら話者の声の音色をリアルタイムで変更できる画期的なテクノロジーを導入します。これは、モバイル プラットフォームに適しており、リアルタイムのコミュニケーションと音声の匿名化の可能性を提供します。 StreamVC の低遅延、高品質音声合成、およびピッチの安定性は、リアルタイム通信の分野で大きな利点をもたらします。
電話であれビデオ会議であれ、リアルタイムコミュニケーションの世界では、サウンドは自分自身を表現するための重要なツールです。しかし、言語の内容やリズムに影響を与えることなく、話者の声の音色をリアルタイムで変更できたらどうなるか、考えたことはありますか? StreamVC テクノロジーの登場により、これが可能になります。
StreamVC は、ソース音声の内容と韻律を維持しながら、ターゲット音声の音色に一致させる革新的な音声変換ソリューションです。従来の方法とは異なり、StreamVC は、モバイル プラットフォーム上であっても入力信号の遅延が少ない波形を生成するため、電話やビデオ会議などのリアルタイム通信シナリオや、これらのシナリオでの音声匿名化に適しています。
技術的なハイライト:
リアルタイム: StreamVC は、モバイル デバイス上で 70.8 ミリ秒の低遅延推論が可能です。
高品質の音声合成: SoundStream ニューラル オーディオ コーデックのアーキテクチャとトレーニング戦略を利用して、軽量で高品質の音声合成を実現します。
ピッチの安定性: 白色化された基本周波数 (f0) 情報を導入することで、ソース スピーカーの音色情報を漏らすことなく、ピッチの一貫性が向上します。
StreamVC の設計は、Soft-VC と SoundStream からインスピレーションを得ています。 HuBERT モデルによって抽出された離散音声単位をコンテンツ エンコーダ ネットワークの予測ターゲットとして使用します。コンテンツのエンコーダーとデコーダーのアーキテクチャとトレーニング戦略は、SoundStream ニューラル オーディオ コーデックに基づいて設計されており、高品質の因果オーディオ合成を実現します。
StreamVC は、自然さ、理解しやすさ、話者の類似性、ピッチの一貫性などの複数のベンチマークで既存のテクノロジーと比較されました。実験結果は、StreamVC がソース言語のピッチを維持する点で優れたパフォーマンスを発揮し、話者の類似性の点で微調整されたモデルに匹敵することを示しています。
StreamVC は、モバイル デバイス上で低遅延で効率的なサウンド変換が完全に実現可能であることを証明します。 HuBERT 由来のソフト音声単位は、ストリーミング可能な因果畳み込みニューラル ネットワーク アーキテクチャを通じて学習でき、高品質の出力を提供するには、白色化された f0 情報をデコーダーに注入することが重要です。
論文アドレス: https://arxiv.org/pdf/2401.03078
StreamVC テクノロジーの出現は、低遅延で高品質な音声変換機能により、リアルタイム音声通信に新たな可能性をもたらし、より多くの分野での音声テクノロジーの応用を促進します。将来的には、音声の匿名化や音声の特殊効果などにおいて、StreamVCがより大きな役割を果たすことになると思います。 StreamVC をベースにしたさらに革新的なアプリケーションを楽しみにしています。