espnet下載 - espnet源代碼下載

espnet

其他源碼

version 202409

下載

ubuntu/python3.11/pip ubuntu/python3.10/conda debian11/python3.10/conda Windows/python3.10/pip macOS/python3.10/pip macOS/python3.10/conda

文檔|示例|示例（ESPNET2） | Docker |筆記本

ESPNET是一種端到端的語音處理工具包，涵蓋端到端語音識別，文本到語音，語音翻譯，語音增強，言語診斷，口語理解等等。 ESPNET使用Pytorch作為深度學習引擎，還遵循Kaldi樣式數據處理，功能提取/格式以及配方為各種語音處理實驗提供完整的設置。

教程系列

2019年教程Interspeech
- 材料
2021教程在CMU
- 在線視頻
- 材料
2022教程在CMU
- 使用ESPNET（ASR為例）
  - 在線視頻
  - 材料
- 將新的模型/任務添加到ESPNET
  - 在線視頻
  - 材料

關鍵功能

卡爾迪風格的完整食譜

ASR配方的支持號碼（WSJ，總機，Chime-4/5，LibrisPeech，TED，CSJ，AMI，HKUST，VOXFORGE，VOXFORGE，REVERB，GIGASPEECH等）
以類似於ASR食譜（LJSpeech，Libritts，M-ailabs等）的方式支持TTS食譜的數字
ST食譜的支持數（Fisher-Callhome西班牙語，Libri-Trans，IWSLT'18，HOW2，RESS-C，Mboshi-French等）
MT食譜的支持號碼（IWSLT'14，IWSLT'16，上述ST食譜等）
SLU食譜的支持號碼（Catslu-Maps，FSC，Grabo，Iemocap，Jdcinal，snips，slurp，swbd-da等）
SE/SS食譜的支持編號（DNS-IS2020，Librimix，SMS-WSJ，VCTK-NoisyReverb，Wham！，Whamr！，WSJ-2Mix等）
支持語音轉換食譜（VCC2020基線）
支持揚聲器診斷食譜（mini_librispeech，librimix）
支持歌聲綜合食譜（Ofuton_p_utagoe_db，OpencPop，M4Singer等）

ASR：自動語音識別

在幾個ASR基準測試中的最先進性能（可比/優於混合DNN/HMM和CTC）
混合CTC/基於注意的端到端ASR
- 通過CTC/注意多任務培訓快速/準確的培訓
- CTC/注意關節解碼以增強單調對齊解碼
- 編碼器：類似於VGG的CNN + Birnn（LSTM/GRU），子採樣BIRNN（LSTM/GRU），變壓器，構象異構體，分支機構或E-Branchanchformer
- 解碼器：RNN（LSTM/GRU），變壓器或S4
注意：閃光注意力，點產品，位置引人注目的注意力，多頭的變體
合併RNNLM/LSTMLM/Transformerlm/N-Gram僅接受文本數據訓練
批次GPU解碼
數據增強
基於傳感器的端到端ASR
- 建築學：
  - 自定義編碼器支持RNN，構象異構體，分支形式（w / variants），1d Conv / TDNN。
  - w/ w/ w/ w/ comenters共享的塊共享了支持RNN，無狀態的w/ 1d Conv，Mega和RWKV的塊。
  - 編碼器：可用的VGG2L或Conv2D。
- 搜索算法：
  - 貪婪的搜索將時間段限制在一個排放量。
  - 默認光束搜索算法[Graves，2012]無前綴搜索。
  - 對齊長度同步解碼[Saon等，2020]。
  - 時間同步解碼[Saon等，2020]。
  - N-步驟約束梁搜索從[Kim等人，2020年]進行了修改。
  - 基於[Kim等，2021]和NSC的修改自適應擴展搜索。
- 特徵：
  - 離線和流語音識別的統一界面。
  - 多任務學習以及各種輔助損失：
    - 編碼器：CTC，輔助傳感器和對稱KL差異。
    - 解碼器：帶標籤平滑的跨凝集。
  - 使用聲學模型和/或語言模型轉移學習。
  - 用快速固定方法培訓[Yu等，2021]。
請參閱教程頁面以獲取完整的文檔。
CTC分割
基於Mask-CTC的非自動迴旋模型
ASR支持瀕危語言文檔的示例（請參閱EGS/PUEBLA_NAHUATL和EGS/YOLOXOCHITL_MIXTEC）
WAV2VEC2.0從FairSeq導入的編碼器預先訓練的模型。
自我監督的學習表示作為特徵，在s3prl中使用上游模型。
- 將frontend設置為s3prl
- 通過將frontend_conf設置為相應的名稱來選擇任何上游模型。
轉移學習：
- 簡單的用法和從先前由您的小組培訓的模型或ESPNET擁抱臉部存儲庫的模型進行轉移。
- 文檔和玩具示例可在Colab上運行。
帶有塊同步梁搜索的流變壓器/構象體ASR。
限制基於長形者作為長序列編碼器的自我發作
Openai Whisper模型，基於大規模，弱監督的多任務學習的強大ASR

示範

帶有ESPNET2的實時ASR演示
在擁抱面孔空間上的Gradio Web演示。查看網絡演示
帶有ESPNET2的流動變壓器ASR本地演示。

TTS：文本到語音

建築學
- tacotron2
- 變壓器-TT
- fastspeech
- FastSpeech2
- 構象比FastSpeech和FastSpeech2
- vits
- 噴氣機
多演講者和多語言擴展
- 預訓練的說話者嵌入（例如，X-Vector）
- 揚聲器ID嵌入
- 語言ID嵌入
- 全球樣式令牌（GST）嵌入
- 上述嵌入的混合
端到端培訓
- 端到端文本到波浪模型（例如，VIT，JET等）
- Text2Mel和Vocoder的聯合培訓
各種語言支持
- en / jp / zn / de / ru /更多...
與神經聲碼器的整合
- 平行波甘
- 梅爾根
- 多頻段梅爾根
- hifigan
- Steplemelgan
- 上述模型的混合

示範

帶有ESPNET2的實時TTS演示
與Gradio集成到擁抱面孔的空間。參見演示：

要培訓神經聲碼器，請檢查以下存儲庫：

kan-bayashi/Parallelwavegan
R9Y9/wavenet_vocoder

SE：言語增強（和分離）

單揚聲器的演講增強
多演講者的語音分離
時間域和頻域模型的統一編碼器 - 分類器解碼器結構
- 編碼器/解碼器：STFT/ISTFT，卷積/轉置互音
- 分離器：BLSTM，變壓器，配構象，tasnet，dprnn，縮短，svoice，dc-crn，dccrn，深聚類，深度吸引力網絡，Fasnet，IFASNET，IFASNET，NEARALE BEAMFORMERS等
靈活的ASR集成：作為單個任務或ASR前端工作
易於從小行星進口預訓練的模型
- 支持小行星和特定配置的預訓練模型。

示範

與ESPNET2進行互動SE演示
與ESPNET2流式傳輸SE演示

ST：語音翻譯和MT：機器翻譯

在幾個ST基準測試中的最先進性能（可比/優於級聯ASR和MT）
基於變壓器的端到端ST（新！）
基於變壓器的端到端MT（新！）

VC：語音轉換

Transformer和Tacotron2基於MEL Spectrogram的基於TACOTRON2的並聯VC
基於級聯ASR+TTS的端到端VC（語音轉換挑戰2020的基線系統！）

SLU：口語理解

建築學
- 基於變壓器的編碼器
- 基於構象異構體的編碼器
- 基於分支的編碼器
- 基於E-Branchformer的編碼器
- 基於RNN的解碼器
- 基於變壓器的解碼器
用ASR支持多任務處理
- 預測意圖和ASR轉錄本
支持NLU的多任務處理
- 審議編碼器的2通過模型
使用預訓練的ASR模型的支持
- 休伯特
- WAV2VEC2
- VQ-APC
- tera等...
使用預訓練的NLP模型的支持
- 伯特
- mpnet等...
各種語言支持
- en / jp / zn / nl /等等...
使用以前的話語中的上下文支持
支持以管道方式使用其他任務（例如SE）
支持將音頻和ASR成績單演示結合的兩個通過SLU
使用語音增強模型進行嘈雜的口語理解，然後是口語理解模型。
執行兩次通用語言，了解第二通過模型在其中均參與聲學和語義信息。
與Gradio集成到擁抱面孔的空間。請參閱多種語言的SLU演示：

總和：語音摘要

使用受限自我注意力的教學視頻的端到端語音摘要配方[Sharma等，2022]

SVS：唱歌聲音綜合

框架合併。
建築學
- 基於RNN的非自動入學模型
- 小米
- tacotron-singing
- diffsinger（正在進行中）
- visinger
- VISINGER 2（其與不同的Vocoder-Architecture的變化）
支持多語言和多語言唱歌合成
- 揚聲器ID嵌入
- 語言ID嵌入
各種語言支持
- JP / EN / KR / ZH
與神經聲碼器的緊密整合（與TTS相同）

SSL：自我監督的學習

支持休伯特預培訓：
- 示例食譜：EGS2/librispeech/ssl1

UASR：無監督的ASR（歐元：ESPNET無監督的識別 - 開源）

建築學
- WAV2VEC-U（具有不同的自我監督模型）
- WAV2VEC-U 2.0（正在進行中）
支持prefixBeamSearch和基於K2的WFST解碼

S2T：語言式多語言多任務模型的語音到文本

使用公共數據從頭開始重現耳語風格的訓練：OWSM
在單個模型中支持多個任務
- 多語言語音識別
- 任何言語翻譯
- 語言標識
- 話語級時間戳預測（分段）

DNN框架

靈活的網絡體系結構得益於Chainer和Pytorch
由於Kaldiio和HDF5支持，靈活的前端處理
基於張板的監視
基於深速的大規模培訓

ESPNET2

請參閱ESPNET2。

獨立於Kaldi/Chainer，與ESPNET1不同
訓練時，即時功能提取和文本處理
支持DistribationDataParallear和Daraparallear
支持多個節點培訓並與Slurm或MPI集成
Fairscale提供的支持碎片培訓
可以應用於所有語料庫的模板配方
在沒有CPU內存錯誤的情況下訓練任何大小的語料庫
ESPNET模型動物園
與WandB集成

安裝

如果您打算進行完整的實驗，包括DNN培訓，請參閱安裝。

如果您只需要Python模塊：

 # We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"

如果您使用ESPNET1，請安裝Chainer和Cupy。

pip install chainer==6.0.0 cupy==6.0.0    # [Option]

您可能需要根據每個任務安裝一些軟件包。我們在工具/安裝程序上準備了各種安裝腳本。

（ESPNET2）安裝後，運行wandb login並設置--use_wandb true ，以使用W＆B啟用跟踪運行。

Docker容器

轉到Docker/並遵循說明。

貢獻

感謝您抽出寶貴的時間來參加ESPNET！歡迎對ESPNET的任何貢獻，並隨時向問題提出任何問題或請求。如果這是您的第一個ESPNET貢獻，請遵循貢獻指南。

ASR結果

擴張

我們列出了主要ASR任務的字符錯誤率（CER）和單詞錯誤率（WER）。

任務	CER（％）	wer（％）	預訓練模型
Aishell Dev/Test	4.6/5.1	N/A。	關聯
ESPNET2 Aishell Dev/Test	4.1/4.4	N/A。	關聯
常見的語音開發/測試	1.7/1.8	2.2/2.3	關聯
CSJ eval1/eval2/eval3	5.7/3.8/4.2	N/A。	關聯
ESPNET2 CSJ eval1/eval2/eval3	4.5/3.3/3.6	N/A。	關聯
ESPNET2 GIGASPEECH DEV/TEST	N/A。	10.6/10.5	關聯
HKUST DEV	23.5	N/A。	關聯
ESPNET2 HKUST DEV	21.2	N/A。	關聯
librispeech dev_clean/dev_other/test_clean/test_other	N/A。	1.9/4.9/2.1/4.9	關聯
ESPNET2 librispeech dev_clean/dev_other/test_clean/test_other	0.6/1.5/0.6/1.4	1.7/3.4/1.8/3.6	關聯
總機（eval2000）callhm/swbd	N/A。	14.0/6.8	關聯
ESPNET2總機（eval2000）callhm/swbd	N/A。	13.4/7.3	關聯
TEDLIUM2開發/測試	N/A。	8.6/7.2	關聯
ESPNET2 TEDLIUM2開發/測試	N/A。	7.3/7.1	關聯
TEDLIUM3開發/測試	N/A。	9.6/7.6	關聯
WSJ Dev93/eval92	3.2/2.1	7.0/4.7	N/A。
ESPNET2 WSJ DEV93/eval92	1.1/0.8	2.8/1.8	關聯

請注意，通過使用寬網絡（#UNITS = 1024）和RWTH報告的大型子詞單元，CSJ，HKUST和LibrisPeech任務的性能得到了顯著提高。

如果要檢查其他食譜的結果，請檢查egs/<name_of_recipe>/asr1/RESULTS.md 。

ASR演示

擴張

您可以使用預訓練的模型在WAV文件中識別語音。轉到食譜目錄並運行utils/recog_wav.sh如下：

 # go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav

example.wav是要識別的WAV文件。採樣率必須與培訓中使用的數據一致。

演示腳本中可用的預訓練模型如下列出。

模型	筆記
tedlium2.rnn.v1	基於基於CTC的VAD的流媒體解碼
tedlium2.rnn.v2	基於基於CTC的VAD（批處理解碼）的流媒體解碼
tedlium2.transformer.v1	在TEDLIUM 2上訓練的聯合CTC注意變壓器
tedlium3.transformer.v1	在TEDLIUM 3上訓練的聯合CTC注意變壓器
librispeech.transformer.v1	在LibrisPeech上訓練的聯合CTC注意變壓器
communvoice.transformer.v1	聯合CTC注意變形金剛在常見的視覺上訓練
csj.transformer.v1	在CSJ上訓練的聯合CTC注意變壓器
csj.rnn.v1	CTC關注VGGBLSTM在CSJ上訓練

SE結果

擴張

我們列出了WSJ0-2MIX上三個不同模型的結果，這是使用語音分離的最廣泛使用的基準數據集之一。

模型	斯托	sar	SDR	先生
TF掩蔽	0.89	11.40	10.24	18.04
conv-tasnet	0.95	16.62	15.94	25.90
dprnn-tasnet	0.96	18.82	18.29	28.92

SE演示

擴張

您可以使用Google Colab嘗試交互式演示。請單擊以下按鈕以訪問演示。

它基於ESPNET2。預訓練的模型可用於語音增強和語音分離任務。

語音分離流演示：

ST結果

擴張

我們列出了主要ST任務的4克BLEU。

端到端系統

任務	bleu	預訓練模型
Fisher-Callhome西班牙Fisher_test（ES-> en）	51.03	關聯
Fisher-Callhome西班牙callhome_evltest（es-> en）	20.44	關聯
libri trans測試（en-> fr）	16.70	關聯
How2 dev5（en-> pt）	45.68	關聯
必須c tst-common（en-> de）	22.91	關聯
mboshi-french dev（fr-> mboshi）	6.18	N/A。

級聯繫統

任務	bleu	預訓練模型
Fisher-Callhome西班牙Fisher_test（ES-> en）	42.16	N/A。
Fisher-Callhome西班牙callhome_evltest（es-> en）	19.82	N/A。
libri trans測試（en-> fr）	16.96	N/A。
How2 dev5（en-> pt）	44.90	N/A。
必須c tst-common（en-> de）	23.65	N/A。

如果要檢查其他食譜的結果，請檢查egs/<name_of_recipe>/st1/RESULTS.md 。

St Demo

擴張

（新！）我們在Google Colab中進行了新的實時E2E-ST + TTS演示。請從以下按鈕訪問筆記本，並享受實時的語音到語音翻譯！

您可以使用預訓練的模型在WAV文件中翻譯語音。轉到食譜目錄並運行utils/translate_wav.sh ，如下：

 # Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav

其中test.wav是要翻譯的WAV文件。採樣率必須與培訓中使用的數據一致。

演示腳本中可用的預訓練模型如下所示。

模型	筆記
fisher_callhome_spanish.transformer.v1	在Fisher-Callhome西班牙語ES-> en上接受了Transformer-St

MT結果

擴張

任務	bleu	預訓練模型
Fisher-Callhome西班牙Fisher_test（ES-> en）	61.45	關聯
Fisher-Callhome西班牙callhome_evltest（es-> en）	29.86	關聯
libri trans測試（en-> fr）	18.09	關聯
How2 dev5（en-> pt）	58.61	關聯
必須c tst-common（en-> de）	27.63	關聯
IWSLT'14 test2014（en-> de）	24.70	關聯
IWSLT'14 test2014（de-> en）	29.22	關聯
IWSLT'14 test2014（de-> en）	32.2	關聯
IWSLT'16 test2014（en-> de）	24.05	關聯
IWSLT'16 test2014（de-> en）	29.13	關聯

TTS結果

ESPNET2

您可以在以下URL中收聽生成的樣品。

ESPNET2 TTS生成的樣品

請注意，在這一代中，我們使用griffin-lim（ wav/ ）和平行wavegan（ wav_pwg/ ）。

您可以通過espnet_model_zoo下載預訓練的模型。

ESPNET模型動物園
預訓練的模型列表

您可以通過kan-bayashi/ParallelWaveGAN下載預訓練的聲音編碼器。

kan-bayashi/Parallelwavegan
預訓練的Vocoder列表

ESPNET1

注意：我們正在基於TTS的基於ESPNET2的開發。請檢查上述ESPNET2結果中的最新結果。

您可以在Demo HP ESPNET-TTS樣本中收聽我們的樣品。在這裡，我們列出了一些著名的：

單英語tacotron2
日本說話者Tacotron2
其他語言揚聲器Tacotron2
多英語的人tacotron2
單英語說話者變壓器
單英語說話者FastSpeech
多英語的人變壓器
單身意大利語者FastSpeech
單劑量揚聲器變壓器
單個普通話揚聲器FastSpeech
多日本說話者變壓器
單英語說話者模型與平行波甘班
單英語說話者知識蒸餾基於FastSpeech

您可以下載所有預訓練的型號和生成的樣本：

所有預訓練的E2E-TTS模型
所有生成的樣品

請注意，在生成的樣品中，我們使用以下輔助機：griffin-lim（ GL ），WaveNet Vocoder（ WaveNet ），Parallel Wavegan（ Parallelwavegan ）和Melgan（ Melgan ）。神經聲碼器基於以下存儲庫。

Kan-Bayashi / Parallelwavegan：平行Wavegan / Melgan / Multi Band Melgan
R9Y9/wavenet_vocoder：16位物流WaveNet Vocoder的混合物
kan-bayashi/pytorchwavenetvocoder：8位軟磁力vavenet vocoder，帶有噪音塑形

如果您想構建自己的神經聲碼器，請檢查上述存儲庫。 Kan-Bayashi/Parallelwavegan提供了有關如何用神經聲碼器來解碼ESPNET-TTS模型功能的手冊。請檢查。

在這裡，我們列出了所有預先訓練的神經聲碼器。請下載並享受高質量演講的一代！

模型鏈接	朗	FS [Hz]	MEL範圍[Hz]	FFT / Shift / Win [PT]	型號類型
ljspeech.wavenet.softmax.ns.v1	en	22.05k	沒有任何	1024 /256 /無	Softmax Wavenet
ljspeech.wavenet.mol.v1	en	22.05k	沒有任何	1024 /256 /無	摩爾維氏
ljspeech.parallel_wavegan.v1	en	22.05k	沒有任何	1024 /256 /無	平行波甘
ljspeech.wavenet.mol.v2	en	22.05k	80-7600	1024 /256 /無	摩爾維氏
ljspeech.parallel_wavegan.v2	en	22.05k	80-7600	1024 /256 /無	平行波甘
ljspeech.melgan.v1	en	22.05k	80-7600	1024 /256 /無	梅爾根
ljspeech.melgan.v3	en	22.05k	80-7600	1024 /256 /無	梅爾根
libritts.wavenet.mol.v1	en	24k	沒有任何	1024 /256 /無	摩爾維氏
jsut.wavenet.mol.v1	JP	24k	80-7600	2048/300/1200	摩爾維氏
jsut.parallel_wavegan.v1	JP	24k	80-7600	2048/300/1200	平行波甘
csmsc.wavenet.mol.v1	ZH	24k	80-7600	2048/300/1200	摩爾維氏
csmsc.parallel_wavegan.v1	ZH	24k	80-7600	2048/300/1200	平行波甘

如果您想使用上述預訓練的聲音編碼器，請與功能設置完全匹配。

TTS演示

ESPNET2

您可以在Google Colab中嘗試實時演示。請從以下按鈕訪問筆記本，並享受實時綜合！

帶有ESPNET2的實時TTS演示

演示中有英語，日語和普通話模型。

ESPNET1

注意：我們正在基於TTS的基於ESPNET2的開發。請檢查上述ESPNET2演示中的最新演示。

您可以在Google Colab中嘗試實時演示。請從以下按鈕訪問筆記本，並享受實時綜合。

帶有ESPNET1的實時TTS演示

我們還提供了一個shell腳本來執行綜合。轉到食譜目錄並運行utils/synth_wav.sh ，如下：

 # Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt

# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt

您可以按以下方式更改預訓練的模型：

synth_wav.sh --models ljspeech.fastspeech.v1 example.txt

波形合成是使用Griffin-Lim算法和神經聲碼器（WaveNet和Parallelwavegan）進行的。您可以如下更改預訓練的Vocoder模型：

synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt

Wavenet Vocoder提供了非常高質量的演講，但需要時間才能產生。

通過--help查看更多詳細信息或可用模型。

synth_wav.sh --help

VC結果

擴張

基於變壓器和Tacotron2的VC

您可以在演示網頁上收聽一些示例。

CASCADE ASR+TTS是VCC2020的基線系統之一

語音轉換挑戰2020（VCC2020）採用ESPNET來構建基於端到端的基線系統。在VCC2020中，該目標是/跨語性非平行VC。您可以在此處下載Cascade ASR+TTS基線系統的轉換後的樣本。

SLU結果

擴張

我們使用原始數據集論文中報告的指標列出了各種SLU任務和數據集上的性能

任務	數據集	公制	結果	預訓練模型
意圖分類	泥漿	ACC	86.3	關聯
意圖分類	FSC	ACC	99.6	關聯
意圖分類	FSC看不見的揚聲器套裝	ACC	98.6	關聯
意圖分類	FSC看不見的話語集	ACC	86.4	關聯
意圖分類	FSC挑戰發言人套裝	ACC	97.5	關聯
意圖分類	FSC挑戰說法集	ACC	78.5	關聯
意圖分類	剪	F1	91.7	關聯
意圖分類	grabo（nl）	ACC	97.2	關聯
意圖分類	貓SLU地圖（Zn）	ACC	78.9	關聯
意圖分類	Google語音命令	ACC	98.4	關聯
插槽填充	泥漿	slu-f1	71.9	關聯
對話行為分類	總機	ACC	67.5	關聯
對話行為分類	JDCinal（JP）	ACC	67.4	關聯
情緒識別	Iemocap	ACC	69.4	關聯
情緒識別	swbd_sentiment	宏F1	61.4	關聯
情緒識別	slue_voxceleb	宏F1	44.0	關聯

如果要檢查其他食譜的結果，請檢查egs2/<name_of_recipe>/asr1/RESULTS.md 。

CTC分割演示

ESPNET1

CTC細分確定音頻文件中的話語段。對齊的話語段構成了語音數據集的標籤。

作為演示，我們使用示例腳本utils/asr_align_wav.sh將音頻文件ctc_align_test.wav中的話語的開始和結尾對齊。為了準備，設置一個數據目錄：

 cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml

cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF

在這裡， utt_text是包含話語列表的文件。選擇一個預先訓練的ASR模型，該模型包括CTC層以查找話語段：

 # pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf

../../../utils/asr_align_wav.sh 
    --models ${model} 
    --align_dir ${align_dir} 
    --align_config ${align_dir} /align.yaml 
    ${wav} ${align_dir} /utt_text

段寫入aligned_segments ，作為文件/話語名稱的列表，在幾秒鐘內的話語開始和結束時間以及置信度得分。置信度得分是對數空間中的概率，表明話語對齊的程度。如果需要，請刪除不良話語：

min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments

演示腳本utils/ctc_align_wav.sh使用已預先訓練的ASR模型（有關更多模型，請參見上面的列表）。建議使用與基於RNN的編碼器（例如BLSTMP）對齊大型音頻文件的模型；而不是在更長的音頻數據上使用具有高內存消耗的變壓器模型。音頻的採樣率必須與訓練中使用的數據的樣本率一致；如果需要，請使用sox進行調整。一個完整的示例配方在egs/tedlium2/align1/中。

ESPNET2

CTC細分確定音頻文件中的話語段。對齊的話語段構成了語音數據集的標籤。

作為演示，我們在音頻文件ctc_align_test.wav中的話語開始和結束。這可以直接從Python命令行或使用腳本espnet2/bin/asr_align.py完成。

從python命令行接口：

 # load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT

對齊還可以與文本的片段一起使用。為此，設置gratis_blank選項，該選項允許跳過無關的音頻部分而不會受到懲罰。也可以通過將kaldi_style_text設置為false，在每行的開頭省略每行的話名稱。

 aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT

腳本espnet2/bin/asr_align.py使用類似的接口。對齊話語：

 # ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT

腳本的輸出可以通過添加參數--output segments將其重定向到segments文件。每行都包含文件/話語名稱，在幾秒鐘內的話語開始和結束時間以及置信度得分；還可以選擇的話語文字。置信度得分是對數空間中的概率，表明話語對齊的程度。如果需要，請刪除不良話語：

min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments

有關更多信息，請參見模塊文檔。建議使用與基於RNN的編碼器（例如BLSTMP）對齊大型音頻文件的模型；而不是使用在更長的音頻數據上具有高內存消耗的變壓器模型。音頻的採樣率必須與訓練中使用的數據的樣本率一致；如果需要，請使用sox進行調整。

另外，如果我們準備一個令牌列表，而不是text文件中的話語列表，則可以使用此工具提供令牌級的細分信息。請參閱＃4278（評論）中的討論。

引用

 @inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
    title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
    author = "Inaguma, Hirofumi  and
      Kiyono, Shun  and
      Duh, Kevin  and
      Karita, Shigeki  and
      Yalta, Nelson  and
      Hayashi, Tomoki  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
    pages = "302--311",
}
@article{hayashi2021espnet2,
  title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2110.07840},
  year={2021}
}
@inproceedings{li2020espnet,
  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
  author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
  booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  pages={785--792},
  year={2021},
  organization={IEEE},
}
@inproceedings{arora2021espnet,
  title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
  author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
  booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7167--7171},
  year={2022},
  organization={IEEE}
}
@inproceedings{shi2022muskits,
  author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
  title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
  year={2022},
  booktitle={Proceedings of Interspeech},
  pages={4277-4281},
  url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
  author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
  title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
  year=2022,
  booktitle={Proc. Interspeech 2022},
  pages={5458--5462},
}
@inproceedings{gao2023euro,
  title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
  author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}
@inproceedings{peng2023reproducing,
  title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
  author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@inproceedings{sharma2023espnet,
  title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
  author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@article{jung2024espnet,
  title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
  author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
  journal={Proc. Interspeech 2024},
  year={2024}
}
@inproceedings{yan-etal-2023-espnet,
    title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
    author = "Yan, Brian  and
      Shi, Jiatong  and
      Tang, Yun  and
      Inaguma, Hirofumi  and
      Peng, Yifan  and
      Dalmia, Siddharth  and
      Pol{'a}k, Peter  and
      Fernandes, Patrick  and
      Berrebbi, Dan  and
      Hayashi, Tomoki  and
      Zhang, Xiaohui  and
      Ni, Zhaoheng  and
      Hira, Moto  and
      Maiti, Soumi  and
      Pino, Juan  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    year = "2023",
    publisher = "Association for Computational Linguistics",
    pages = "400--411",
}

展開

附加信息

版本 version 202409
類型其他源碼
更新時間 2025-02-02
大小 23.14MB
來自於 Github

相關應用

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
SmartTube

其他源碼

24.71 Stable
Sunamu

其他源碼

Release 2.2.0
waymo open dataset

其他源碼

December 2023 Update
wp functions

其他類別

1.0.0
termwind

其他類別

v2.3.0

相關資訊全部