espnet下载 - espnet源代码下载

espnet

其他源码

version 202409

下载

ubuntu/python3.11/pip ubuntu/python3.10/conda debian11/python3.10/conda Windows/python3.10/pip macOS/python3.10/pip macOS/python3.10/conda

文档|示例|示例（ESPNET2） | Docker |笔记本

ESPNET是一种端到端的语音处理工具包，涵盖端到端语音识别，文本到语音，语音翻译，语音增强，言语诊断，口语理解等等。 ESPNET使用Pytorch作为深度学习引擎，还遵循Kaldi样式数据处理，功能提取/格式以及配方为各种语音处理实验提供完整的设置。

教程系列

2019年教程Interspeech
- 材料
2021教程在CMU
- 在线视频
- 材料
2022教程在CMU
- 使用ESPNET（ASR为例）
  - 在线视频
  - 材料
- 将新的模型/任务添加到ESPNET
  - 在线视频
  - 材料

关键功能

卡尔迪风格的完整食谱

ASR配方的支持号码（WSJ，总机，Chime-4/5，LibrisPeech，TED，CSJ，AMI，HKUST，VOXFORGE，VOXFORGE，REVERB，GIGASPEECH等）
以类似于ASR食谱（LJSpeech，Libritts，M-ailabs等）的方式支持TTS食谱的数字
ST食谱的支持数（Fisher-Callhome西班牙语，Libri-Trans，IWSLT'18，HOW2，RESS-C，Mboshi-French等）
MT食谱的支持号码（IWSLT'14，IWSLT'16，上述ST食谱等）
SLU食谱的支持号码（Catslu-Maps，FSC，Grabo，Iemocap，Jdcinal，snips，slurp，swbd-da等）
SE/SS食谱的支持编号（DNS-IS2020，Librimix，SMS-WSJ，VCTK-NoisyReverb，Wham！，Whamr！，WSJ-2Mix等）
支持语音转换食谱（VCC2020基线）
支持扬声器诊断食谱（mini_librispeech，librimix）
支持歌声综合食谱（Ofuton_p_utagoe_db，OpencPop，M4Singer等）

ASR：自动语音识别

在几个ASR基准测试中的最先进性能（可比/优于混合DNN/HMM和CTC）
混合CTC/基于注意的端到端ASR
- 通过CTC/注意多任务培训快速/准确的培训
- CTC/注意关节解码以增强单调对齐解码
- 编码器：类似于VGG的CNN + Birnn（LSTM/GRU），子采样BIRNN（LSTM/GRU），变压器，构象异构体，分支机构或E-Branchanchformer
- 解码器：RNN（LSTM/GRU），变压器或S4
注意：闪光注意力，点产品，位置引人注目的注意力，多头的变体
合并RNNLM/LSTMLM/Transformerlm/N-Gram仅接受文本数据训练
批次GPU解码
数据增强
基于传感器的端到端ASR
- 建筑学：
  - 自定义编码器支持RNN，构象异构体，分支形式（w / variants），1d Conv / TDNN。
  - w/ w/ w/ w/ comenters共享的块共享了支持RNN，无状态的w/ 1d Conv，Mega和RWKV的块。
  - 编码器：可用的VGG2L或Conv2D。
- 搜索算法：
  - 贪婪的搜索将时间段限制在一个排放量。
  - 默认光束搜索算法[Graves，2012]无前缀搜索。
  - 对齐长度同步解码[Saon等，2020]。
  - 时间同步解码[Saon等，2020]。
  - N-步骤约束梁搜索从[Kim等人，2020年]进行了修改。
  - 基于[Kim等，2021]和NSC的修改自适应扩展搜索。
- 特征：
  - 离线和流语音识别的统一界面。
  - 多任务学习以及各种辅助损失：
    - 编码器：CTC，辅助传感器和对称KL差异。
    - 解码器：带标签平滑的跨凝集。
  - 使用声学模型和/或语言模型转移学习。
  - 用快速固定方法培训[Yu等，2021]。
请参阅教程页面以获取完整的文档。
CTC分割
基于Mask-CTC的非自动回旋模型
ASR支持濒危语言文档的示例（请参阅EGS/PUEBLA_NAHUATL和EGS/YOLOXOCHITL_MIXTEC）
WAV2VEC2.0从FairSeq导入的编码器预先训练的模型。
自我监督的学习表示作为特征，在s3prl中使用上游模型。
- 将frontend设置为s3prl
- 通过将frontend_conf设置为相应的名称来选择任何上游模型。
转移学习：
- 简单的用法和从先前由您的小组培训的模型或ESPNET拥抱脸部存储库的模型进行转移。
- 文档和玩具示例可在Colab上运行。
带有块同步梁搜索的流变压器/构象体ASR。
限制基于长形者作为长序列编码器的自我发作
Openai Whisper模型，基于大规模，弱监督的多任务学习的强大ASR

示范

带有ESPNET2的实时ASR演示
在拥抱面孔空间上的Gradio Web演示。查看网络演示
带有ESPNET2的流动变压器ASR本地演示。

TTS：文本到语音

建筑学
- tacotron2
- 变压器-TT
- fastspeech
- FastSpeech2
- 构象比FastSpeech和FastSpeech2
- vits
- 喷气机
多演讲者和多语言扩展
- 预训练的说话者嵌入（例如，X-Vector）
- 扬声器ID嵌入
- 语言ID嵌入
- 全球样式令牌（GST）嵌入
- 上述嵌入的混合
端到端培训
- 端到端文本到波浪模型（例如，VIT，JET等）
- Text2Mel和Vocoder的联合培训
各种语言支持
- en / jp / zn / de / ru /更多...
与神经声码器的整合
- 平行波甘
- 梅尔根
- 多频段梅尔根
- hifigan
- Steplemelgan
- 上述模型的混合

示范

带有ESPNET2的实时TTS演示
与Gradio集成到拥抱面孔的空间。参见演示：

要培训神经声码器，请检查以下存储库：

kan-bayashi/Parallelwavegan
R9Y9/wavenet_vocoder

SE：言语增强（和分离）

单扬声器的演讲增强
多演讲者的语音分离
时间域和频域模型的统一编码器 - 分类器解码器结构
- 编码器/解码器：STFT/ISTFT，卷积/转置互音
- 分离器：BLSTM，变压器，配构象，tasnet，dprnn，缩短，svoice，dc-crn，dccrn，深聚类，深度吸引力网络，Fasnet，IFASNET，IFASNET，NEARALE BEAMFORMERS等
灵活的ASR集成：作为单个任务或ASR前端工作
易于从小行星进口预训练的模型
- 支持小行星和特定配置的预训练模型。

示范

与ESPNET2进行互动SE演示
与ESPNET2流式传输SE演示

ST：语音翻译和MT：机器翻译

在几个ST基准测试中的最先进性能（可比/优于级联ASR和MT）
基于变压器的端到端ST（新！）
基于变压器的端到端MT（新！）

VC：语音转换

Transformer和Tacotron2基于MEL Spectrogram的基于TACOTRON2的并联VC
基于级联ASR+TTS的端到端VC（语音转换挑战2020的基线系统！）

SLU：口语理解

建筑学
- 基于变压器的编码器
- 基于构象异构体的编码器
- 基于分支的编码器
- 基于E-Branchformer的编码器
- 基于RNN的解码器
- 基于变压器的解码器
用ASR支持多任务处理
- 预测意图和ASR转录本
支持NLU的多任务处理
- 审议编码器的2通过模型
使用预训练的ASR模型的支持
- 休伯特
- WAV2VEC2
- VQ-APC
- tera等...
使用预训练的NLP模型的支持
- 伯特
- mpnet等...
各种语言支持
- en / jp / zn / nl /等等...
使用以前的话语中的上下文支持
支持以管道方式使用其他任务（例如SE）
支持将音频和ASR成绩单演示结合的两个通过SLU
使用语音增强模型进行嘈杂的口语理解，然后是口语理解模型。
执行两次通用语言，了解第二通过模型在其中均参与声学和语义信息。
与Gradio集成到拥抱面孔的空间。请参阅多种语言的SLU演示：

总和：语音摘要

使用受限自我注意力的教学视频的端到端语音摘要配方[Sharma等，2022]

SVS：唱歌声音综合

框架合并。
建筑学
- 基于RNN的非自动入学模型
- 小米
- tacotron-singing
- diffsinger（正在进行中）
- visinger
- VISINGER 2（其与不同的Vocoder-Architecture的变化）
支持多语言和多语言唱歌合成
- 扬声器ID嵌入
- 语言ID嵌入
各种语言支持
- JP / EN / KR / ZH
与神经声码器的紧密整合（与TTS相同）

SSL：自我监督的学习

支持休伯特预培训：
- 示例食谱：EGS2/librispeech/ssl1

UASR：无监督的ASR（欧元：ESPNET无监督的识别 - 开源）

建筑学
- WAV2VEC-U（具有不同的自我监督模型）
- WAV2VEC-U 2.0（正在进行中）
支持prefixBeamSearch和基于K2的WFST解码

S2T：语言式多语言多任务模型的语音到文本

使用公共数据从头开始重现耳语风格的训练：OWSM
在单个模型中支持多个任务
- 多语言语音识别
- 任何言语翻译
- 语言标识
- 话语级时间戳预测（分段）

DNN框架

灵活的网络体系结构得益于Chainer和Pytorch
由于Kaldiio和HDF5支持，灵活的前端处理
基于张板的监视
基于深速的大规模培训

ESPNET2

请参阅ESPNET2。

独立于Kaldi/Chainer，与ESPNET1不同
训练时，即时功能提取和文本处理
支持DistribationDataParallear和Daraparallear
支持多个节点培训并与Slurm或MPI集成
Fairscale提供的支持碎片培训
可以应用于所有语料库的模板配方
在没有CPU内存错误的情况下训练任何大小的语料库
ESPNET模型动物园
与WandB集成

安装

如果您打算进行完整的实验，包括DNN培训，请参阅安装。

如果您只需要Python模块：

 # We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"

如果您使用ESPNET1，请安装Chainer和Cupy。

pip install chainer==6.0.0 cupy==6.0.0    # [Option]

您可能需要根据每个任务安装一些软件包。我们在工具/安装程序上准备了各种安装脚本。

（ESPNET2）安装后，运行wandb login并设置--use_wandb true ，以使用W＆B启用跟踪运行。

Docker容器

转到Docker/并遵循说明。

贡献

感谢您抽出宝贵的时间来参加ESPNET！欢迎对ESPNET的任何贡献，并随时向问题提出任何问题或请求。如果这是您的第一个ESPNET贡献，请遵循贡献指南。

ASR结果

扩张

我们列出了主要ASR任务的字符错误率（CER）和单词错误率（WER）。

任务	CER（％）	wer（％）	预训练模型
Aishell Dev/Test	4.6/5.1	N/A。	关联
ESPNET2 Aishell Dev/Test	4.1/4.4	N/A。	关联
常见的语音开发/测试	1.7/1.8	2.2/2.3	关联
CSJ eval1/eval2/eval3	5.7/3.8/4.2	N/A。	关联
ESPNET2 CSJ eval1/eval2/eval3	4.5/3.3/3.6	N/A。	关联
ESPNET2 GIGASPEECH DEV/TEST	N/A。	10.6/10.5	关联
HKUST DEV	23.5	N/A。	关联
ESPNET2 HKUST DEV	21.2	N/A。	关联
librispeech dev_clean/dev_other/test_clean/test_other	N/A。	1.9/4.9/2.1/4.9	关联
ESPNET2 librispeech dev_clean/dev_other/test_clean/test_other	0.6/1.5/0.6/1.4	1.7/3.4/1.8/3.6	关联
总机（eval2000）callhm/swbd	N/A。	14.0/6.8	关联
ESPNET2总机（eval2000）callhm/swbd	N/A。	13.4/7.3	关联
TEDLIUM2开发/测试	N/A。	8.6/7.2	关联
ESPNET2 TEDLIUM2开发/测试	N/A。	7.3/7.1	关联
TEDLIUM3开发/测试	N/A。	9.6/7.6	关联
WSJ Dev93/eval92	3.2/2.1	7.0/4.7	N/A。
ESPNET2 WSJ DEV93/eval92	1.1/0.8	2.8/1.8	关联

请注意，通过使用宽网络（#UNITS = 1024）和RWTH报告的大型子词单元，CSJ，HKUST和LibrisPeech任务的性能得到了显着提高。

如果要检查其他食谱的结果，请检查egs/<name_of_recipe>/asr1/RESULTS.md 。

ASR演示

扩张

您可以使用预训练的模型在WAV文件中识别语音。转到食谱目录并运行utils/recog_wav.sh如下：

 # go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav

example.wav是要识别的WAV文件。采样率必须与培训中使用的数据一致。

演示脚本中可用的预训练模型如下列出。

模型	笔记
tedlium2.rnn.v1	基于基于CTC的VAD的流媒体解码
tedlium2.rnn.v2	基于基于CTC的VAD（批处理解码）的流媒体解码
tedlium2.transformer.v1	在TEDLIUM 2上训练的联合CTC注意变压器
tedlium3.transformer.v1	在TEDLIUM 3上训练的联合CTC注意变压器
librispeech.transformer.v1	在LibrisPeech上训练的联合CTC注意变压器
communvoice.transformer.v1	联合CTC注意变形金刚在常见的视觉上训练
csj.transformer.v1	在CSJ上训练的联合CTC注意变压器
csj.rnn.v1	CTC关注VGGBLSTM在CSJ上训练

SE结果

扩张

我们列出了WSJ0-2MIX上三个不同模型的结果，这是使用语音分离的最广泛使用的基准数据集之一。

模型	斯托	sar	SDR	先生
TF掩蔽	0.89	11.40	10.24	18.04
conv-tasnet	0.95	16.62	15.94	25.90
dprnn-tasnet	0.96	18.82	18.29	28.92

SE演示

扩张

您可以使用Google Colab尝试交互式演示。请单击以下按钮以访问演示。

它基于ESPNET2。预训练的模型可用于语音增强和语音分离任务。

语音分离流演示：

ST结果

扩张

我们列出了主要ST任务的4克BLEU。

端到端系统

任务	bleu	预训练模型
Fisher-Callhome西班牙Fisher_test（ES-> en）	51.03	关联
Fisher-Callhome西班牙callhome_evltest（es-> en）	20.44	关联
libri trans测试（en-> fr）	16.70	关联
How2 dev5（en-> pt）	45.68	关联
必须c tst-common（en-> de）	22.91	关联
mboshi-french dev（fr-> mboshi）	6.18	N/A。

级联系统

任务	bleu	预训练模型
Fisher-Callhome西班牙Fisher_test（ES-> en）	42.16	N/A。
Fisher-Callhome西班牙callhome_evltest（es-> en）	19.82	N/A。
libri trans测试（en-> fr）	16.96	N/A。
How2 dev5（en-> pt）	44.90	N/A。
必须c tst-common（en-> de）	23.65	N/A。

如果要检查其他食谱的结果，请检查egs/<name_of_recipe>/st1/RESULTS.md 。

St Demo

扩张

（新！）我们在Google Colab中进行了新的实时E2E-ST + TTS演示。请从以下按钮访问笔记本，并享受实时的语音到语音翻译！

您可以使用预训练的模型在WAV文件中翻译语音。转到食谱目录并运行utils/translate_wav.sh ，如下：

 # Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav

其中test.wav是要翻译的WAV文件。采样率必须与培训中使用的数据一致。

演示脚本中可用的预训练模型如下所示。

模型	笔记
fisher_callhome_spanish.transformer.v1	在Fisher-Callhome西班牙语ES-> en上接受了Transformer-St

MT结果

扩张

任务	bleu	预训练模型
Fisher-Callhome西班牙Fisher_test（ES-> en）	61.45	关联
Fisher-Callhome西班牙callhome_evltest（es-> en）	29.86	关联
libri trans测试（en-> fr）	18.09	关联
How2 dev5（en-> pt）	58.61	关联
必须c tst-common（en-> de）	27.63	关联
IWSLT'14 test2014（en-> de）	24.70	关联
IWSLT'14 test2014（de-> en）	29.22	关联
IWSLT'14 test2014（de-> en）	32.2	关联
IWSLT'16 test2014（en-> de）	24.05	关联
IWSLT'16 test2014（de-> en）	29.13	关联

TTS结果

ESPNET2

您可以在以下URL中收听生成的样品。

ESPNET2 TTS生成的样品

请注意，在这一代中，我们使用griffin-lim（ wav/ ）和平行wavegan（ wav_pwg/ ）。

您可以通过espnet_model_zoo下载预训练的模型。

ESPNET模型动物园
预训练的模型列表

您可以通过kan-bayashi/ParallelWaveGAN下载预训练的声音编码器。

kan-bayashi/Parallelwavegan
预训练的Vocoder列表

ESPNET1

注意：我们正在基于TTS的基于ESPNET2的开发。请检查上述ESPNET2结果中的最新结果。

您可以在Demo HP ESPNET-TTS样本中收听我们的样品。在这里，我们列出了一些著名的：

单英语tacotron2
日本说话者Tacotron2
其他语言扬声器Tacotron2
多英语的人tacotron2
单英语说话者变压器
单英语说话者FastSpeech
多英语的人变压器
单身意大利语者FastSpeech
单剂量扬声器变压器
单个普通话扬声器FastSpeech
多日本说话者变压器
单英语说话者模型与平行波甘班
单英语说话者知识蒸馏基于FastSpeech

您可以下载所有预训练的型号和生成的样本：

所有预训练的E2E-TTS模型
所有生成的样品

请注意，在生成的样品中，我们使用以下辅助机：griffin-lim（ GL ），WaveNet Vocoder（ WaveNet ），Parallel Wavegan（ Parallelwavegan ）和Melgan（ Melgan ）。神经声码器基于以下存储库。

Kan-Bayashi / Parallelwavegan：平行Wavegan / Melgan / Multi Band Melgan
R9Y9/wavenet_vocoder：16位物流WaveNet Vocoder的混合物
kan-bayashi/pytorchwavenetvocoder：8位软磁力vavenet vocoder，带有噪音塑形

如果您想构建自己的神经声码器，请检查上述存储库。 Kan-Bayashi/Parallelwavegan提供了有关如何用神经声码器来解码ESPNET-TTS模型功能的手册。请检查。

在这里，我们列出了所有预先训练的神经声码器。请下载并享受高质量演讲的一代！

模型链接	朗	FS [Hz]	MEL范围[Hz]	FFT / Shift / Win [PT]	型号类型
ljspeech.wavenet.softmax.ns.v1	en	22.05k	没有任何	1024 /256 /无	Softmax Wavenet
ljspeech.wavenet.mol.v1	en	22.05k	没有任何	1024 /256 /无	摩尔维氏
ljspeech.parallel_wavegan.v1	en	22.05k	没有任何	1024 /256 /无	平行波甘
ljspeech.wavenet.mol.v2	en	22.05k	80-7600	1024 /256 /无	摩尔维氏
ljspeech.parallel_wavegan.v2	en	22.05k	80-7600	1024 /256 /无	平行波甘
ljspeech.melgan.v1	en	22.05k	80-7600	1024 /256 /无	梅尔根
ljspeech.melgan.v3	en	22.05k	80-7600	1024 /256 /无	梅尔根
libritts.wavenet.mol.v1	en	24k	没有任何	1024 /256 /无	摩尔维氏
jsut.wavenet.mol.v1	JP	24k	80-7600	2048/300/1200	摩尔维氏
jsut.parallel_wavegan.v1	JP	24k	80-7600	2048/300/1200	平行波甘
csmsc.wavenet.mol.v1	ZH	24k	80-7600	2048/300/1200	摩尔维氏
csmsc.parallel_wavegan.v1	ZH	24k	80-7600	2048/300/1200	平行波甘

如果您想使用上述预训练的声音编码器，请与功能设置完全匹配。

TTS演示

ESPNET2

您可以在Google Colab中尝试实时演示。请从以下按钮访问笔记本，并享受实时综合！

带有ESPNET2的实时TTS演示

演示中有英语，日语和普通话模型。

ESPNET1

注意：我们正在基于TTS的基于ESPNET2的开发。请检查上述ESPNET2演示中的最新演示。

您可以在Google Colab中尝试实时演示。请从以下按钮访问笔记本，并享受实时综合。

带有ESPNET1的实时TTS演示

我们还提供了一个shell脚本来执行综合。转到食谱目录并运行utils/synth_wav.sh ，如下：

 # Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt

# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt

您可以按以下方式更改预训练的模型：

synth_wav.sh --models ljspeech.fastspeech.v1 example.txt

波形合成是使用Griffin-Lim算法和神经声码器（WaveNet和Parallelwavegan）进行的。您可以如下更改预训练的Vocoder模型：

synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt

Wavenet Vocoder提供了非常高质量的演讲，但需要时间才能产生。

通过--help查看更多详细信息或可用模型。

synth_wav.sh --help

VC结果

扩张

基于变压器和Tacotron2的VC

您可以在演示网页上收听一些示例。

CASCADE ASR+TTS是VCC2020的基线系统之一

语音转换挑战2020（VCC2020）采用ESPNET来构建基于端到端的基线系统。在VCC2020中，该目标是/跨语性非平行VC。您可以在此处下载Cascade ASR+TTS基线系统的转换后的样本。

SLU结果

扩张

我们使用原始数据集论文中报告的指标列出了各种SLU任务和数据集上的性能

任务	数据集	公制	结果	预训练模型
意图分类	泥浆	ACC	86.3	关联
意图分类	FSC	ACC	99.6	关联
意图分类	FSC看不见的扬声器套装	ACC	98.6	关联
意图分类	FSC看不见的话语集	ACC	86.4	关联
意图分类	FSC挑战发言人套装	ACC	97.5	关联
意图分类	FSC挑战说法集	ACC	78.5	关联
意图分类	剪	F1	91.7	关联
意图分类	grabo（nl）	ACC	97.2	关联
意图分类	猫SLU地图（Zn）	ACC	78.9	关联
意图分类	Google语音命令	ACC	98.4	关联
插槽填充	泥浆	slu-f1	71.9	关联
对话行为分类	总机	ACC	67.5	关联
对话行为分类	JDCinal（JP）	ACC	67.4	关联
情绪识别	Iemocap	ACC	69.4	关联
情绪识别	swbd_sentiment	宏F1	61.4	关联
情绪识别	slue_voxceleb	宏F1	44.0	关联

如果要检查其他食谱的结果，请检查egs2/<name_of_recipe>/asr1/RESULTS.md 。

CTC分割演示

ESPNET1

CTC细分确定音频文件中的话语段。对齐的话语段构成了语音数据集的标签。

作为演示，我们使用示例脚本utils/asr_align_wav.sh将音频文件ctc_align_test.wav中的话语的开始和结尾对齐。为了准备，设置一个数据目录：

 cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml

cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF

在这里， utt_text是包含话语列表的文件。选择一个预先训练的ASR模型，该模型包括CTC层以查找话语段：

 # pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf

../../../utils/asr_align_wav.sh 
    --models ${model} 
    --align_dir ${align_dir} 
    --align_config ${align_dir} /align.yaml 
    ${wav} ${align_dir} /utt_text

段写入aligned_segments ，作为文件/话语名称的列表，在几秒钟内的话语开始和结束时间以及置信度得分。置信度得分是对数空间中的概率，表明话语对齐的程度。如果需要，请删除不良话语：

min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments

演示脚本utils/ctc_align_wav.sh使用已预先训练的ASR模型（有关更多模型，请参见上面的列表）。建议使用与基于RNN的编码器（例如BLSTMP）对齐大型音频文件的模型；而不是在更长的音频数据上使用具有高内存消耗的变压器模型。音频的采样率必须与训练中使用的数据的样本率一致；如果需要，请使用sox进行调整。一个完整的示例配方在egs/tedlium2/align1/中。

ESPNET2

CTC细分确定音频文件中的话语段。对齐的话语段构成了语音数据集的标签。

作为演示，我们在音频文件ctc_align_test.wav中的话语开始和结束。这可以直接从Python命令行或使用脚本espnet2/bin/asr_align.py完成。

从python命令行接口：

 # load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT

对齐还可以与文本的片段一起使用。为此，设置gratis_blank选项，该选项允许跳过无关的音频部分而不会受到惩罚。也可以通过将kaldi_style_text设置为false，在每行的开头省略每行的话名称。

 aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT

脚本espnet2/bin/asr_align.py使用类似的接口。对齐话语：

 # ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT

脚本的输出可以通过添加参数--output segments将其重定向到segments文件。每行都包含文件/话语名称，在几秒钟内的话语开始和结束时间以及置信度得分；还可以选择的话语文字。置信度得分是对数空间中的概率，表明话语对齐的程度。如果需要，请删除不良话语：

min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments

有关更多信息，请参见模块文档。建议使用与基于RNN的编码器（例如BLSTMP）对齐大型音频文件的模型；而不是使用在更长的音频数据上具有高内存消耗的变压器模型。音频的采样率必须与训练中使用的数据的样本率一致；如果需要，请使用sox进行调整。

另外，如果我们准备一个令牌列表，而不是text文件中的话语列表，则可以使用此工具提供令牌级的细分信息。请参阅＃4278（评论）中的讨论。

引用

 @inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
    title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
    author = "Inaguma, Hirofumi  and
      Kiyono, Shun  and
      Duh, Kevin  and
      Karita, Shigeki  and
      Yalta, Nelson  and
      Hayashi, Tomoki  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
    pages = "302--311",
}
@article{hayashi2021espnet2,
  title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2110.07840},
  year={2021}
}
@inproceedings{li2020espnet,
  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
  author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
  booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  pages={785--792},
  year={2021},
  organization={IEEE},
}
@inproceedings{arora2021espnet,
  title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
  author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
  booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7167--7171},
  year={2022},
  organization={IEEE}
}
@inproceedings{shi2022muskits,
  author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
  title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
  year={2022},
  booktitle={Proceedings of Interspeech},
  pages={4277-4281},
  url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
  author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
  title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
  year=2022,
  booktitle={Proc. Interspeech 2022},
  pages={5458--5462},
}
@inproceedings{gao2023euro,
  title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
  author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}
@inproceedings{peng2023reproducing,
  title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
  author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@inproceedings{sharma2023espnet,
  title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
  author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@article{jung2024espnet,
  title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
  author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
  journal={Proc. Interspeech 2024},
  year={2024}
}
@inproceedings{yan-etal-2023-espnet,
    title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
    author = "Yan, Brian  and
      Shi, Jiatong  and
      Tang, Yun  and
      Inaguma, Hirofumi  and
      Peng, Yifan  and
      Dalmia, Siddharth  and
      Pol{'a}k, Peter  and
      Fernandes, Patrick  and
      Berrebbi, Dan  and
      Hayashi, Tomoki  and
      Zhang, Xiaohui  and
      Ni, Zhaoheng  and
      Hira, Moto  and
      Maiti, Soumi  and
      Pino, Juan  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    year = "2023",
    publisher = "Association for Computational Linguistics",
    pages = "400--411",
}

展开

附加信息

版本 version 202409
类型其他源码
更新时间 2025-02-02
大小 23.14MB
来自于 Github