このリポジトリは、リアルタイムで動作するボコーダーを備えた話者検証からマルチ話者音声合成 (SV2TTS) への転移学習の実装です。これが私の修士論文でした。
SV2TTS は 3 段階の深層学習フレームワークです。最初の段階では、数秒間の音声から音声のデジタル表現を作成します。第 2 段階と第 3 段階では、この表現が参照として使用され、任意のテキストから音声を生成します。
ビデオデモンストレーション(画像をクリック):
URL | 指定 | タイトル | 実装ソース |
---|---|---|---|
1806.04558 | SV2TTS | 話者検証からマルチ話者テキスト読み上げ合成への学習の転移 | このリポジトリ |
1802.08435 | WaveRNN (ボコーダー) | 効率的なニューラルオーディオ合成 | ファットコード/WaveRNN |
1703.10135 | タコトロン(シンセサイザー) | Tacotron: エンドツーエンドの音声合成に向けて | ファットコード/WaveRNN |
1710.10467 | GE2E(エンコーダ) | 話者検証のための一般化されたエンドツーエンド損失 | このリポジトリ |
ディープ ラーニングの他のすべてと同様、このリポジトリもすぐに古くなってしまいました。多くの SaaS アプリ (有料の場合が多い) では、このリポジトリよりも優れた音質が得られます。高音声品質のオープンソース ソリューションが必要な場合:
venv
使用して仮想環境をセットアップすることをお勧めしますが、これはオプションです。pip install -r requirements.txt
を使用して残りの要件をインストールします。事前トレーニングされたモデルが自動的にダウンロードされるようになりました。これがうまくいかない場合は、ここから手動でダウンロードできます。
データセットをダウンロードする前に、以下を使用して構成をテストすることから始めることができます。
python demo_cli.py
すべてのテストに合格したら、準備完了です。
ツールボックスのみを使用する場合は、 LibriSpeech/train-clean-100
ダウンロードすることのみをお勧めします。内容を
として抽出します。ここで、
選択したディレクトリです。他のデータセットはツールボックスでサポートされています。こちらを参照してください。データセットをダウンロードしないことは自由ですが、その場合は独自のデータを音声ファイルとして必要とするか、ツールボックスを使用して録音する必要があります。
その後、ツールボックスを試すことができます。
python demo_toolbox.py -d
またはpython demo_toolbox.py
データセットをダウンロードしたかどうかに応じて異なります。 X サーバーを実行している場合、またはエラーAborted (core dumped)
が発生した場合は、この問題を参照してください。