espnetダウンロードespnetソースコードのダウンロード

espnet

その他のソースコード

version 202409

ダウンロード

ubuntu/python3.11/pip ubuntu/python3.10/conda debian11/python3.10/conda Windows/python3.10/pip macos/python3.10/pip macos/python3.10/conda

ドキュメント|例|例（ESPNET2） | Docker |ノート

ESPNETは、エンドツーエンドの音声認識、テキストツースピーチ、音声翻訳、音声翻訳、スピーカーの日記、話し言葉の理解などをカバーするエンドツーエンドの音声処理ツールキットです。 ESPNETは、Pytorchをディープラーニングエンジンとして使用し、Kaldiスタイルのデータ処理、特徴抽出/形式、およびレシピに従って、さまざまな音声処理実験の完全なセットアップを提供します。

チュートリアルシリーズ

Speechでの2019チュートリアル
- 材料
2021 CMUのチュートリアル
- オンラインビデオ
- 材料
2022 CMUのチュートリアル
- ESPNETの使用（例としてASR）
  - オンラインビデオ
  - 材料
- ESPNETに新しいモデル/タスクを追加します
  - オンラインビデオ
  - 材料

重要な機能

カルディスタイルの完全なレシピ

ASRレシピのサポート番号（WSJ、スイッチボード、Chime-4/5、Librispeech、TED、CSJ、AMI、HKUST、VOXFORGE、REVETE、GIGASPEECHなど）
ASRレシピ（ljspeech、libritts、m-ailabsなど）と同様の方法でTTSレシピの数をサポートします。
STレシピのサポート番号（Fisher-Callhomeスペイン語、Libri-Trans、IWSLT'18、How2、Must-C、Mboshi-Frenchなど）
MTレシピのサポート番号（IWSLT'14、IWSLT'16、上記のセントレシピなど）
SLUレシピのサポート番号（CATSLU-MAPS、FSC、GRABO、IEMOCAP、JDCINAL、SNIPS、SLURP、SWBD-DAなど）
SE/SSレシピのサポート番号（DNS-IS2020、Librimix、SMS-WSJ、VCTK-NOISYREVERB、WHAM！、WHAMR！、WSJ-2MIXなど）
音声変換レシピ（VCC2020ベースライン）をサポートする
サポートスピーカーのダイアリゼーションレシピ（mini_librispeech、librimix）
歌声統合レシピ（ofuton_p_utagoe_db、opencpop、m4singerなど）をサポートする

ASR：自動音声認識

いくつかのASRベンチマークでの最先端のパフォーマンス（ハイブリッドDNN/HMMおよびCTCに匹敵する/優れています）
ハイブリッドCTC/注意ベースのエンドツーエンドASR
- CTC/注意マルチタスクトレーニングによる高速/正確なトレーニング
- CTC/注意ジョイントデコード単調アライメントデコードを強化します
- エンコーダー：VGG-Like CNN + Birnn（LSTM/GRU）、サブサンプリングBirnn（LSTM/GRU）、トランス、コンフォーマー、ブランチフォーマー、またはE-BranchFormer
- デコーダー：RNN（LSTM/GRU）、トランス、またはS4
注意：フラッシュの注意、ドット製品、位置認識の注意、マルチヘッドのバリエーション
rnnlm/lstmlm/transformerlm/n-gramをテキストデータでのみトレーニングします
バッチGPUデコード
データ増強
トランスデューサーベースのエンドツーエンドASR
- 建築：
  - RNNS、コンフォーマー、ブランカフォーマー（バリアントw /バリアント）、1d conv / tdnnをサポートするカスタムエンコーダー。
  - RNN、ステートレスW/ 1D CONV、MEGA、およびRWKVをサポートするブロック間で共有されたパラメーター付きデコーダー。
  - エンコーダー前：VGG2LまたはCONV2Dが利用可能。
- 検索アルゴリズム：
  - Timestepによる1つの排出に制約された貪欲な検索。
  - プレフィックス検索なしのデフォルトビーム検索アルゴリズム[Graves、2012]。
  - アライメント長の同期デコード[Saon et al。、2020]。
  - 時間同期解読[Saon et al。、2020]。
  - [Kim et al。、2020]から変更されたNステップ制約ビーム検索。
  - [Kim et al。、2021]およびNSCに基づく修正適応拡張検索。
- 特徴：
  - オフラインおよびストリーミング音声認識のための統一インターフェイス。
  - さまざまな補助損失によるマルチタスク学習：
    - エンコーダ：CTC、補助トランスデューサー、対称KL発散。
    - デコーダー：ラベルのスムージング付きクロスエントロピー。
  - 音響モデルおよび/または言語モデルで学習を転送します。
  - FASTEMIT正規化方法によるトレーニング[Yu et al。、2021]。
完全なドキュメントについては、チュートリアルページを参照してください。
CTCセグメンテーション
Mask-CTCに基づく非自動節約モデル
絶滅の危機にある言語のドキュメントをサポートするためのASR例（詳細については、EGS/PUEBLA_NAHUATLおよびEGS/Yoloxochitl_Mixtecを参照してください）
WAV2VEC2.0 Encoderとしての事前訓練モデル、FairSeqからインポート。
フロントエンドのS3PRLで上流モデルを使用して、特徴として自己教師の学習表現。
- frontend s3prlに設定します
- frontend_conf対応する名前に設定して、上流モデルを選択します。
転送学習：
- 以前にグループまたはESPNET Hugging Face Repositoryのモデルによってトレーニングされていたモデルからの簡単な使用と転送。
- コラブで実行可能なドキュメントとおもちゃの例。
ブロックワイズシンクロナスビーム検索を備えたストリーミングトランス/コンフォーマーASR。
長いシーケンスのエンコーダーとしてのLongformerに基づく自己触たちが制限されています
Openai Whisperモデル、大規模で弱く監視されたマルチタスク学習に基づく堅牢なASR

デモンストレーション

ESPNET2を使用したリアルタイムASRデモ
顔のスペースを抱き締めるグラデーションウェブデモ。 Webデモをご覧ください
ESPNET2を使用したストリーミングトランスASRローカルデモ。

TTS：テキストからスピーチ

建築
- Tacotron2
- トランスTTS
- fastspeech
- fastspeech2
- 配置fastspeech＆fastspeech2
- vits
- ジェット
マルチスピーカーとマルチ言語拡張機能
- 事前に訓練されたスピーカーの埋め込み（例、X-Vector）
- スピーカーIDの埋め込み
- 言語IDの埋め込み
- グローバルスタイルトークン（GST）埋め込み
- 上記の埋め込みの組み合わせ
エンドツーエンドのトレーニング
- エンドツーエンドのテキストからWAVモデル（たとえば、Vit、Jetsなど）
- Text2Melとボコーダーの共同トレーニング
さまざまな言語サポート
- en / jp / zn / de / ru / and more ...
ニューラルボコーダーとの統合
- パラレルウェーブガン
- メルガン
- マルチバンドメルガン
- ヒフィガン
- Stylemelgan
- 上記のモデルの組み合わせ

デモンストレーション

ESPNET2を使用したリアルタイムTTSデモ
グラデーションでフェイススペースを抱き締めることに統合されています。デモを参照してください：

ニューラルボコーダーをトレーニングするには、次のリポジトリを確認してください。

Kan-Bayashi/Parallelwavegan
R9y9/wavenet_vocoder

SE：音声強化（および分離）

単一スピーカーの音声強化
マルチスピーカーの音声分離
タイムドメインおよび周波数ドメインモデルのための統合エンコーダーセパレータデコーダー構造
- エンコーダー/デコーダー：STFT/ISTFT、畳み込み/転換抑制
- セパレーター：BLSTM、トランス、コンフォーマー、TASNET、DPRNN、スキム、Svoice、DC-CRN、DCCRN、ディープクラスタリング、ディープアトラクタネットワーク、FASNET、IFASNET、ニューラルビームフォーマーなど。
柔軟なASR統合：個々のタスクとして、またはASRフロントエンドとして機能する
小惑星から事前に訓練されたモデルを簡単にインポートできます
- 小惑星からの事前に訓練されたモデルと特定の構成の両方がサポートされています。

デモンストレーション

ESPNET2を使用したインタラクティブSEデモ
ESPNET2を使用したSEデモのストリーミング

ST：音声翻訳＆MT：機械翻訳

いくつかのSTベンチマークで最先端のパフォーマンス（カスケードASRおよびMTに匹敵する/優れています）
トランスベースのエンドツーエンドST（新規！）
トランスベースのエンドツーエンドMT（新規！）

VC：音声変換

MEL Spectrogramを使用したトランスおよびTacotron2ベースの並列VC
カスケードASR+TTSに基づくエンドツーエンドVC（音声変換チャレンジ2020のベースラインシステム！）

SLU：話し言葉の理解

建築
- トランスベースのエンコーダー
- コンフォーマーベースのエンコーダー
- Branchformerベースのエンコーダー
- e-BranchFormerベースのエンコーダー
- RNNベースのデコーダー
- トランスベースのデコーダー
ASRでマルチタスクをサポートします
- 意図とASR転写の両方を予測します
NLUでマルチタスクをサポートします
- 審議エンコーダーベースの2パスモデル
事前に訓練されたASRモデルを使用したサポート
- ヒューバート
- WAV2VEC2
- VQ-APC
- テラなど...
事前に訓練されたNLPモデルを使用したサポート
- バート
- mpnetなど...
さまざまな言語サポート
- en / jp / zn / nl / and more ...
以前の発話からのコンテキストを使用してサポートします
パイプラインの方法でSEのような他のタスクを使用することをサポートします
オーディオとASRトランスクリプトデモンストレーションを組み合わせた2つのパスSLUをサポートします
音声強化モデルを使用して、音声言語理解モデルを使用してノイズの多い言語理解を実行します。
2番目のパスモデルがアコースティック情報とセマンティック情報の両方に参加する場所を理解する2パスの音声言語を実行します。
グラデーションでフェイススペースを抱き締めることに統合されています。複数の言語でSLUデモを参照してください。

合計：音声要約

制限された自己attentionを使用した教育ビデオのエンドツーエンドの音声要約レシピ[Sharma et al。、2022]

SVS：音声合成を歌います

フレームワークはムスキットから合流します
建築
- RNNベースの非自動性モデル
- Xiaoice
- タコトロンシンシング
- Diffsinger（進行中）
- Visinger
- Visinging 2（異なるボコーダーアーキテクチャによるバリエーション）
マルチスピーカーと多言語の歌の合成をサポートします
- スピーカーIDの埋め込み
- 言語IDの埋め込み
さまざまな言語サポート
- jp / en / kr / zh
ニューラルボコーダーとの緊密な統合（TTSと同じ）

SSL：自己教師の学習

Hubert Pre-Trainingをサポート：
- レシピの例：EGS2/Librispeech/SSL1

UASR：監視なしASR（Euro：ESPNET非監視認識 - オープンソース）

建築
- wav2vec-u（異なる自己監視モデルを使用）
- WAV2VEC-U 2.0（進行中）
PrefixBeamSearchとK2ベースのWFSTデコードをサポートします

S2T：ウィスパースタイルの多言語マルチタスクモデルを使用した音声からテキスト

パブリックデータを使用して、ささやきスタイルのトレーニングをゼロから再現します：OWSM
単一のモデルで複数のタスクをサポートします
- 多言語の音声認識
- 任意の音声翻訳
- 言語識別
- 発話レベルのタイムスタンプ予測（セグメンテーション）

DNNフレームワーク

ChainerとPytorchのおかげで、柔軟なネットワークアーキテクチャ
KaldiioとHDF5サポートのおかげで、柔軟なフロントエンド処理
テンソルボードベースの監視
ディープスピードベースの大規模トレーニング

ESPNET2

ESPNET2を参照してください。

ESPNET1とは異なり、Kaldi/Chainerから独立しています
トレーニング時のフィーチャフィーチャの抽出とテキスト処理
分配されたdataparallelとdaraparallelの両方をサポートします
複数のノードのトレーニングをサポートし、SluRMまたはMPIと統合した
フェアスケールが提供するシャードトレーニングのサポート
すべてのコーパスに適用できるテンプレートレシピ
CPUメモリエラーなしで任意のサイズのコーパスをトレーニングすることができます
ESPNETモデル動物園
WandBと統合

インストール

DNNトレーニングを含む完全な実験を行う場合は、インストールを参照してください。
Pythonモジュールのみが必要な場合のみ：
```
 # We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
```
ESPNET1を使用する場合は、ChainerとCupyをインストールしてください。
```
pip install chainer==6.0.0 cupy==6.0.0    # [Option]
```
各タスクに応じて、いくつかのパッケージをインストールする必要がある場合があります。ツール/インストーラーでさまざまなインストールスクリプトを準備しました。
（ESPNET2）インストールしたら、 wandb login実行してset --use_wandb true w＆bを使用して追跡することを有効にします。

Dockerコンテナ

Dockerに移動して、指示に従ってください。

貢献

ESPNETに時間を割いていただきありがとうございます！ ESPNETへの貢献は大歓迎です。問題や問題について質問やリクエストをお気軽にお問い合わせください。それがあなたの最初のESPNETの貢献である場合は、貢献ガイドに従ってください。

ASRの結果

拡大する

主要なASRタスクの文字エラー率（CER）と単語エラー率（WER）をリストします。

タスク	cer（％）	wer（％）	事前に訓練されたモデル
Aishell Dev/Test	4.6/5.1	n/a	リンク
espnet2 aishell dev/test	4.1/4.4	n/a	リンク
一般的な音声開発/テスト	1.7/1.8	2.2/2.3	リンク
CSJ eval1/eval2/eval3	5.7/3.8/4.2	n/a	リンク
ESPNET2 CSJ EVAL1/EVAL2/EVAL3	4.5/3.3/3.6	n/a	リンク
ESPNET2 GigaSpeech Dev/Test	n/a	10.6/10.5	リンク
hkust dev	23.5	n/a	リンク
espnet2 hkust dev	21.2	n/a	リンク
librispeech dev_clean/dev_other/test_clean/test_other	n/a	1.9/4.9/2.1/4.9	リンク
espnet2 librispeech dev_clean/dev_other/test_clean/test_other	0.6/1.5/0.6/1.4	1.7/3.4/1.8/3.6	リンク
スイッチボード（Eval2000）Callhm/SWBD	n/a	14.0/6.8	リンク
ESPNET2スイッチボード（EVAL2000）CALLHM/SWBD	n/a	13.4/7.3	リンク
tedlium2 dev/test	n/a	8.6/7.2	リンク
ESPNET2 TEDLIUM2 DEV/テスト	n/a	7.3/7.1	リンク
tedlium3 dev/test	n/a	9.6/7.6	リンク
WSJ dev93/eval92	3.2/2.1	7.0/4.7	n/a
ESPNET2 WSJ dev93/eval92	1.1/0.8	2.8/1.8	リンク

CSJ、HKUST、およびLibrispeechタスクのパフォーマンスは、RWTHが報告する必要に応じて、ワイドネットワーク（#Units = 1024）と大規模なサブワード単位を使用することにより、大幅に改善されたことに注意してください。

他のレシピの結果を確認する場合は、 egs/<name_of_recipe>/asr1/RESULTS.mdを確認してください。

ASRデモ

拡大する

事前に訓練されたモデルを使用して、WAVファイルの音声を認識できます。レシピディレクトリに移動し、次のようにutils/recog_wav.shを実行します。

 # go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav

example.wavは、認識される波状ファイルです。サンプリングレートは、トレーニングで使用されるデータのサンプリングレートと一致する必要があります。

デモスクリプトで利用可能な事前に訓練されたモデルを以下に示します。

モデル	メモ
Tedlium2.rnn.v1	CTCベースのVADに基づくストリーミングデコード
Tedlium2.rnn.v2	CTCベースのVAD（バッチデコード）に基づくストリーミングデコード
tedlium2.transformer.v1	Tedlium 2で訓練された関節注意トランス2
tedlium3.transformer.v1	Tedlium 3で訓練された関節注意トランス3
librispeech.transformer.v1	Librispeechで訓練されたジョイントCTC注意トランス
commonvoice.transformer.v1	CommonVoiceでトレーニングされたジョイントCTC注意トランス
csj.transformer.v1	CSJでトレーニングされたジョイントCTC注意トランス
csj.rnn.v1	CSJでトレーニングされたジョイントCTCの注意vggblstm

SEの結果

拡大する

WSJ0-2Mixの3つの異なるモデルの結果をリストします。これは、音声分離のために最も広く使用されているベンチマークデータセットです。

モデル	ストイ	sar	SDR	お客様
TFマスキング	0.89	11.40	10.24	18.04
Conv-Tasnet	0.95	16.62	15.94	25.90
dprnn-tasnet	0.96	18.82	18.29	28.92

se demos

拡大する

Google Colabでインタラクティブなデモを試すことができます。デモにアクセスするには、次のボタンをクリックしてください。

ESPNET2に基づいています。事前に訓練されたモデルは、音声強化と音声分離タスクの両方で利用できます。

音声分離ストリーミングデモ：

ST結果

拡大する

主要なSTタスクの4グラムブルーをリストします。

エンドツーエンドシステム

タスク	ブルー	事前に訓練されたモデル
Fisher-CallhomeスペインFisher_test（es-> en）	51.03	リンク
Fisher-Callhomeスペイン語Callhome_evltest（es-> en）	20.44	リンク
Libri-Transテスト（en-> fr）	16.70	リンク
how2 dev5（en-> pt）	45.68	リンク
マスト-C TST-Common（en-> de）	22.91	リンク
Mboshi-French Dev（fr-> mboshi）	6.18	n/a

カスケードシステム

タスク	ブルー	事前に訓練されたモデル
Fisher-CallhomeスペインFisher_test（es-> en）	42.16	n/a
Fisher-Callhomeスペイン語Callhome_evltest（es-> en）	19.82	n/a
Libri-Transテスト（en-> fr）	16.96	n/a
how2 dev5（en-> pt）	44.90	n/a
マスト-C TST-Common（en-> de）	23.65	n/a

他のレシピの結果を確認する場合は、 egs/<name_of_recipe>/st1/RESULTS.mdを確認してください。

セントデモ

拡大する

（新しい！ ）Google Colabで新しいリアルタイムE2E-ST + TTSデモを行いました。次のボタンからノートブックにアクセスし、リアルタイムのスピーチからスピーチの翻訳をお楽しみください！

事前に訓練されたモデルを使用して、WAVファイルでスピーチを翻訳できます。レシピディレクトリに移動し、次のようにutils/translate_wav.shを実行します。

 # Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav

test.wavは、翻訳する波状ファイルです。サンプリングレートは、トレーニングで使用されるデータのサンプリングレートと一致する必要があります。

デモスクリプトで利用可能な事前に訓練されたモデルを以下にリストします。

モデル	メモ
fisher_callhome_spanish.transformer.v1	Fisher-Callhomeスペイン語ES-> enで訓練されたトランスセント

MTの結果

拡大する

タスク	ブルー	事前に訓練されたモデル
Fisher-CallhomeスペインFisher_test（es-> en）	61.45	リンク
Fisher-Callhomeスペイン語Callhome_evltest（es-> en）	29.86	リンク
Libri-Transテスト（en-> fr）	18.09	リンク
how2 dev5（en-> pt）	58.61	リンク
マスト-C TST-Common（en-> de）	27.63	リンク
IWSLT'14 test2014（en-> de）	24.70	リンク
iwslt'14 test2014（de-> en）	29.22	リンク
iwslt'14 test2014（de-> en）	32.2	リンク
iwslt'16 test2014（en-> de）	24.05	リンク
iwslt'16 test2014（de-> en）	29.13	リンク

TTSの結果

ESPNET2

次のURLで生成されたサンプルを聞くことができます。

ESPNET2 TTS生成サンプル

世代では、Griffin-Lim（ wav/ ）およびParallel Wavegan（ wav_pwg/ ）を使用していることに注意してください。

espnet_model_zooを介して事前に訓練されたモデルをダウンロードできます。

ESPNETモデル動物園
事前に訓練されたモデルリスト

kan-bayashi/ParallelWaveGANを介して事前に訓練されたボコーダーをダウンロードできます。

Kan-Bayashi/Parallelwavegan
事前に訓練されたボコーダーリスト

ESPNET1

注：TTSのESPNET2ベースの開発を進んでいます。上記のESPNET2結果の最新の結果を確認してください。

デモHP ESPNET-TTSサンプルでサンプルを聴くことができます。ここにいくつかの注目すべきものがリストされています。

単一英語話者Tacotron2
単一の日本語スピーカーTacotron2
他の単一の言語スピーカーtacotron2
マルチ英語話者Tacotron2
単一の英語話者トランス
単一の英語話者fastspeech
マルチイングリッシュスピーカートランス
単一のイタリア語のスピーカーfastspeech
単一のマンダリンスピーカートランス
単一のマンダリンスピーカー速度スピーチ
多数の日本語スピーカートランス
パラレルウェーブガンを備えた単一英語スピーカーモデル
単一の英語話者の知識蒸留ベースの速報

事前に訓練されたモデルと生成されたサンプルをすべてダウンロードできます。

事前に訓練されたE2E-TTSモデルのすべて
生成されたすべてのサンプル

生成されたサンプルでは、Griffin-Lim（ GL ）、Wavenet Vocoder（ Wavenet ）、Parallel Wavegan（ Parallelwavegan ）、およびMelgan（ Melgan ）の次のボコーダーを使用します。ニューラルボコーダーは、次のリポジトリに基づいています。

Kan-Bayashi / Parallelwavegan：Parallel Wavegan / Melgan / Multi-Band Melgan
R9Y9/Wavenet_Vocoder：ロジスティクスWavenet Vocoderの16ビット混合
Kan-Bayashi/PytorchwavenetVocoder：8ビットソフトマックスWavenet Vocoder with Noise Shaping

独自のニューラルボコーダーを構築する場合は、上記のリポジトリを確認してください。 Kan-Bayashi/Parallelwaveganは、ESPNET-TTSモデルの機能を神経声子でデコードする方法についてのマニュアルを提供します。確認してください。

ここでは、事前に訓練されたニューラルボコーダーをすべてリストします。高品質のスピーチの世代をダウンロードしてお楽しみください！

モデルリンク	ラング	FS [Hz]	メルレンジ[Hz]	fft / shift / win [pt]	モデルタイプ
ljspeech.wavenet.softmax.ns.v1	en	22.05K	なし	1024 /256 /なし	SoftMax Wavenet
ljspeech.wavenet.mol.v1	en	22.05K	なし	1024 /256 /なし	Mol Wavenet
ljspeech.parallel_wavegan.v1	en	22.05K	なし	1024 /256 /なし	パラレルウェーブガン
ljspeech.wavenet.mol.v2	en	22.05K	80-7600	1024 /256 /なし	Mol Wavenet
ljspeech.parallel_wavegan.v2	en	22.05K	80-7600	1024 /256 /なし	パラレルウェーブガン
ljspeech.melgan.v1	en	22.05K	80-7600	1024 /256 /なし	メルガン
ljspeech.melgan.v3	en	22.05K	80-7600	1024 /256 /なし	メルガン
libritts.wavenet.mol.v1	en	24k	なし	1024 /256 /なし	Mol Wavenet
jsut.wavenet.mol.v1	JP	24k	80-7600	2048 /300 /1200	Mol Wavenet
jsut.parallel_wavegan.v1	JP	24k	80-7600	2048 /300 /1200	パラレルウェーブガン
csmsc.wavenet.mol.v1	Zh	24k	80-7600	2048 /300 /1200	Mol Wavenet
csmsc.parallel_wavegan.v1	Zh	24k	80-7600	2048 /300 /1200	パラレルウェーブガン

上記の事前訓練を受けたボコーダーを使用する場合は、機能設定を正確に一致させてください。

TTSデモ

ESPNET2

Google Colabでリアルタイムデモを試すことができます。次のボタンからノートブックにアクセスして、リアルタイムの合成をお楽しみください！

ESPNET2を使用したリアルタイムTTSデモ

英語、日本語、およびマンダリンモデルは、デモで入手できます。

ESPNET1

注：TTSのESPNET2ベースの開発を進んでいます。上記のESPNET2デモの最新デモを確認してください。

Google Colabでリアルタイムデモを試すことができます。次のボタンからノートブックにアクセスして、リアルタイムの合成をお楽しみください。

ESPNET1を使用したリアルタイムTTSデモ

また、合成を実行するシェルスクリプトも提供します。レシピディレクトリに移動し、次のようにutils/synth_wav.shを実行します。

 # Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt

# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt

事前に訓練されたモデルを次のように変更できます。

synth_wav.sh --models ljspeech.fastspeech.v1 example.txt

波形合成は、Griffin-LIMアルゴリズムとニューラルボコーダー（WavenetおよびParallelwavegan）で実行されます。以下のように、事前に訓練されたボコーダーモデルを変更できます。

synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt

Wavenet Vocoderは非常に高品質のスピーチを提供しますが、生成には時間がかかります。

--help経由の詳細または利用可能なモデルを参照してください。

synth_wav.sh --help

VCの結果

拡大する

トランスおよびタコトロン2ベースのVC

デモWebページでいくつかのサンプルを聴くことができます。

VCC2020のベースラインシステムの1つとしてのカスケードASR+TTS

Voice Conversion Challenge 2020（VCC2020）はESPNETを採用して、エンドツーエンドベースのベースラインシステムを構築します。 VCC2020では、目的は内部/間診断の非平行VCです。 Cascade ASR+TTSベースラインシステムの変換されたサンプルをこちらからダウンロードできます。

SLUの結果

拡大する

元のデータセットペーパーで報告されたメトリックを使用して、さまざまなSLUタスクとデータセットのパフォーマンスをリストします

タスク	データセット	メトリック	結果	事前に訓練されたモデル
意図分類	丸	acc	86.3	リンク
意図分類	FSC	acc	99.6	リンク
意図分類	FSC目に見えないスピーカーセット	acc	98.6	リンク
意図分類	FSC目に見えない発話セット	acc	86.4	リンク
意図分類	FSCチャレンジスピーカーセット	acc	97.5	リンク
意図分類	FSCチャレンジの発話セット	acc	78.5	リンク
意図分類	スニップ	F1	91.7	リンク
意図分類	グラボ（NL）	acc	97.2	リンク
意図分類	猫SLUマップ（ZN）	acc	78.9	リンク
意図分類	Googleスピーチコマンド	acc	98.4	リンク
スロットフィリング	丸	SLU-F1	71.9	リンク
対話法の分類	配電盤	acc	67.5	リンク
対話法の分類	jdcinal（jp）	acc	67.4	リンク
感情認識	iEmocap	acc	69.4	リンク
感情認識	swbd_sentiment	マクロF1	61.4	リンク
感情認識	slue_voxceleb	マクロF1	44.0	リンク

他のレシピの結果を確認する場合は、 egs2/<name_of_recipe>/asr1/RESULTS.mdを確認してください。

CTCセグメンテーションデモ

ESPNET1

CTCセグメンテーションは、オーディオファイル内の発話セグメントを決定します。アライメントされた発話セグメントは、音声データセットのラベルを構成します。

デモとして、サンプルスクリプトutils/asr_align_wav.shを使用して、オーディオファイルctc_align_test.wav内の発話の開始と終了を整列させます。準備のために、データディレクトリを設定します。

 cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml

cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF

ここで、 utt_textは発話のリストを含むファイルです。発話セグメントを見つけるためのCTCレイヤーを含む事前に訓練されたASRモデルを選択します。

 # pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf

../../../utils/asr_align_wav.sh 
    --models ${model} 
    --align_dir ${align_dir} 
    --align_config ${align_dir} /align.yaml 
    ${wav} ${align_dir} /utt_text

セグメントは、ファイル/発話名のリスト、秒単位での発話の開始時間と終了時間、および信頼性スコアとしてaligned_segmentsに書かれています。信頼性スコアは、発話がどれだけうまく整合されているかを示すログ空間の確率です。必要に応じて、悪い発言を削除します。

min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments

DEMOスクリプトutils/ctc_align_wav.shすでに事前に訓練されたASRモデルを使用しています（その他のモデルについては、上記のリストを参照）。大規模なオーディオファイルを整列するために、RNNベースのエンコーダー（BLSTMPなど）を備えたモデルを使用することをお勧めします。長いオーディオデータでメモリ消費量が多いトランスモデルを使用するのではなく。オーディオのサンプルレートは、トレーニングで使用されるデータのサンプルレートと一致する必要があります。必要に応じてsoxで調整します。完全な例レシピはegs/tedlium2/align1/にあります。

ESPNET2

CTCセグメンテーションは、オーディオファイル内の発話セグメントを決定します。アライメントされた発話セグメントは、音声データセットのラベルを構成します。

デモとして、オーディオファイルctc_align_test.wav内の発話の開始と終了を整列させます。これは、Pythonコマンドラインから直接行うか、スクリプトespnet2/bin/asr_align.py使用して実行できます。

Pythonコマンドラインインターフェイスから：

 # load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT

Alingは、テキストのフラグメントでも動作します。このために、無関係なオーディオセクションをペナルティなしでスキップできるようにするgratis_blankオプションを設定します。 kaldi_style_text falseに設定することにより、各行の先頭に発話名を省略することもできます。

 aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT

スクリプトespnet2/bin/asr_align.py同様のインターフェイスを使用します。発話を調整するには：

 # ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT

スクリプトの出力は、引数--output segments追加することにより、 segmentsファイルにリダイレクトできます。各行には、ファイル/発話名、発言の開始時間と秒単位の時間、および信頼性スコアが含まれます。オプションでは、発話テキストもあります。信頼性スコアは、発話がどれだけうまく整合されているかを示すログ空間の確率です。必要に応じて、悪い発言を削除します。

min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments

詳細については、モジュールのドキュメントを参照してください。大規模なオーディオファイルを整列するために、RNNベースのエンコーダー（BLSTMPなど）を備えたモデルを使用することをお勧めします。より長いオーディオデータでメモリ消費量が高いトランスモデルを使用するのではなく。オーディオのサンプルレートは、トレーニングで使用されるデータのサンプルレートと一致する必要があります。必要に応じてsoxで調整します。

また、このツールを使用して、 textファイルの発話のトークンのリストではなくトークンのリストを準備する場合、トークンレベルのセグメンテーション情報を提供できます。＃4278（コメント）のディスカッションを参照してください。

引用

 @inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
    title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
    author = "Inaguma, Hirofumi  and
      Kiyono, Shun  and
      Duh, Kevin  and
      Karita, Shigeki  and
      Yalta, Nelson  and
      Hayashi, Tomoki  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
    pages = "302--311",
}
@article{hayashi2021espnet2,
  title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2110.07840},
  year={2021}
}
@inproceedings{li2020espnet,
  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
  author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
  booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  pages={785--792},
  year={2021},
  organization={IEEE},
}
@inproceedings{arora2021espnet,
  title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
  author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
  booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7167--7171},
  year={2022},
  organization={IEEE}
}
@inproceedings{shi2022muskits,
  author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
  title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
  year={2022},
  booktitle={Proceedings of Interspeech},
  pages={4277-4281},
  url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
  author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
  title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
  year=2022,
  booktitle={Proc. Interspeech 2022},
  pages={5458--5462},
}
@inproceedings{gao2023euro,
  title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
  author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}
@inproceedings{peng2023reproducing,
  title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
  author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@inproceedings{sharma2023espnet,
  title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
  author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@article{jung2024espnet,
  title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
  author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
  journal={Proc. Interspeech 2024},
  year={2024}
}
@inproceedings{yan-etal-2023-espnet,
    title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
    author = "Yan, Brian  and
      Shi, Jiatong  and
      Tang, Yun  and
      Inaguma, Hirofumi  and
      Peng, Yifan  and
      Dalmia, Siddharth  and
      Pol{'a}k, Peter  and
      Fernandes, Patrick  and
      Berrebbi, Dan  and
      Hayashi, Tomoki  and
      Zhang, Xiaohui  and
      Ni, Zhaoheng  and
      Hira, Moto  and
      Maiti, Soumi  and
      Pino, Juan  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    year = "2023",
    publisher = "Association for Computational Linguistics",
    pages = "400--411",
}

拡大する

追加情報

バージョン version 202409
タイプその他のソースコード
更新時間 2025-02-02
サイズ 23.14MB
から Github