문서 | 예 | 예제 (ESPNET2) | 도커 | 공책
ESPNET은 엔드 투 엔드 스피치 프로세싱 툴킷으로 엔드 투 엔드 음성 인식, 텍스트 음성 연설, 음성 번역, 음성 향상, 스피커 발기, 언어 이해 등을 다루는 엔드 투 엔드 스피치 프로세스 툴킷입니다. ESPNET은 Pytorch를 딥 러닝 엔진으로 사용하고 Kaldi 스타일 데이터 처리, 기능 추출/형식 및 레시피를 따라 다양한 음성 처리 실험을위한 완벽한 설정을 제공합니다.
ASR
레시피의 지원 번호 (WSJ, 배전판, Chime-4/5, Librispeech, TED, CSJ, AMI, HKUST, VOXFORGE, Reverb, Gigaspeech 등)TTS
레시피의 수를 지원합니다 (LJSpeech, Libritts, M-Aailabs 등)ST
레시피의 지원 번호 (Fisher-Callhome Spanish, Libri-Trans, IWSLT'18, How2, Must-C, Mboshi-French 등)MT
레시피의 지원 번호 (IWSLT'14, IWSLT'16, 위의 ST 레시피 등)SLU
레시피의 지원 번호 (Catslu-Maps, FSC, Grabo, IEMOCAP, JDCINAL, SNIPS, SLURP, SWBD-DA 등)SE/SS
레시피의 지원 수 (DNS-IS2020, Librimix, SMS-WSJ, VCTK-NOISYREVERB, WHAM!, WHAMR!, WSJ-2MIX 등)전체 문서는 튜토리얼 페이지를 참조하십시오.
s3prl
로 frontend
설정하십시오frontend_conf
해당 이름으로 설정하여 업스트림 모델을 선택하십시오.데모
데모
신경 보코더를 훈련 시키려면 다음 저장소를 확인하십시오.
데모
ESPNET2를 참조하십시오.
DNN 교육을 포함한 전체 실험을하려는 경우 설치를 참조하십시오.
파이썬 모듈 만 있으면 :
# We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
ESPNET1을 사용하는 경우 Chainer 및 Cupy를 설치하십시오.
pip install chainer==6.0.0 cupy==6.0.0 # [Option]
각 작업에 따라 일부 패키지를 설치해야 할 수도 있습니다. 도구/설치자에서 다양한 설치 스크립트를 준비했습니다.
(ESPNET2) 일단 설치되면 W & B를 사용하여 추적 실행을 활성화하려면 wandb login
실행하고 set --use_wandb true
.
Docker/로 가서 지침을 따르십시오.
ESPNET에 시간을 내 주셔서 감사합니다! ESPNET에 대한 모든 기여는 환영하며 질문이나 문제에 대한 질문을 자유롭게 요청하십시오. 첫 번째 ESPNET 기부금이라면 기여 가이드를 따르십시오.
주요 ASR 작업의 문자 오류율 (CER) 및 WER (Word 오류율)을 나열합니다.
일 | CER (%) | wer (%) | 미리 훈련 된 모델 |
---|---|---|---|
Aishell Dev/Test | 4.6/5.1 | N/A | 링크 |
ESPNET2 Aishell Dev/Test | 4.1/4.4 | N/A | 링크 |
일반적인 음성 개발자/테스트 | 1.7/1.8 | 2.2/2.3 | 링크 |
CSJ Eval1/Eval2/Eval3 | 5.7/3.8/4.2 | N/A | 링크 |
ESPNET2 CSJ EVAL1/EVAT2/EVAT3 | 4.5/3.3/3.6 | N/A | 링크 |
ESPNET2 gigaspeech dev/test | N/A | 10.6/10.5 | 링크 |
Hkust Dev | 23.5 | N/A | 링크 |
ESPNET2 HKUST DEV | 21.2 | N/A | 링크 |
librispeech dev_clean/dev_other/test_clean/test_other | N/A | 1.9/4.9/2.1/4.9 | 링크 |
ESPNET2 librispeech dev_clean/dev_other/test_clean/test_other | 0.6/1.5/0.6/1.4 | 1.7/3.4/1.8/3.6 | 링크 |
전환 보드 (Eval2000) Callhm/SWBD | N/A | 14.0/6.8 | 링크 |
ESPNET2 전환 보드 (Eval2000) Callhm/SWBD | N/A | 13.4/7.3 | 링크 |
Tedlium2 Dev/Test | N/A | 8.6/7.2 | 링크 |
ESPNET2 TEDLIUM2 DEV/TEST | N/A | 7.3/7.1 | 링크 |
Tedlium3 dev/test | N/A | 9.6/7.6 | 링크 |
WSJ Dev93/Eval92 | 3.2/2.1 | 7.0/4.7 | N/A |
ESPNET2 WSJ Dev93/Eval92 | 1.1/0.8 | 2.8/1.8 | 링크 |
CSJ, Hkust 및 LibrisPeech 작업의 성능은 RWTH가보고 한 필요한 경우 와이드 네트워크 (#units = 1024) 및 대형 서브 워드 장치를 사용하여 크게 향상되었습니다.
다른 레시피의 결과를 확인하려면 egs/<name_of_recipe>/asr1/RESULTS.md
확인하십시오.
미리 훈련 된 모델을 사용하여 WAV 파일로 음성을 인식 할 수 있습니다. 레시피 디렉토리로 이동하여 utils/recog_wav.sh
실행하십시오.
# go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav
여기서 example.wav
는 인식 할 WAV 파일입니다. 샘플링 속도는 훈련에 사용되는 데이터와 일치해야합니다.
데모 스크립트에서 사용 가능한 미리 훈련 된 모델은 다음과 같습니다.
모델 | 메모 |
---|---|
Tedlium2.rnn.v1 | CTC 기반 VAD에 기초한 스트리밍 디코딩 |
Tedlium2.rnn.v2 | CTC 기반 VAD를 기반으로 한 스트리밍 디코딩 (배치 디코딩) |
Tedlium2.transformer.v1 | 공동 -CTC주의 변압기 2 |
Tedlium3.transformer.v1 | 공동 -CTC주의 변압기 3 |
librispeech.transformer.v1 | Librispeech에서 훈련 된 Joint-CTC주의 변압기 |
CommonVoice.transformer.v1 | CommonVoice에 대한 조인트 CTC주의 변압기 |
csj.transformer.v1 | CSJ에서 훈련 된 Joint-CTC주의 변압기 |
CSJ.RNN.V1 | 공동 -CTC 관심 VGGBLSTM CSJ에 대한 교육 |
우리는 WSJ0-2Mix의 세 가지 모델에서 결과를 나열합니다.이 모델은 음성 분리에 가장 널리 사용되는 벤치 마크 데이터 세트 중 하나입니다.
모델 | 스토이 | SAR | SDR | 선생님 |
---|---|---|---|---|
TF 마스킹 | 0.89 | 11.40 | 10.24 | 18.04 |
CONL-TASNET | 0.95 | 16.62 | 15.94 | 25.90 |
dprnn-tasnet | 0.96 | 18.82 | 18.29 | 28.92 |
ESPNET2를 기반으로합니다. 미리 훈련 된 모델은 음성 향상 및 음성 분리 작업 모두에 사용할 수 있습니다.
음성 분리 스트리밍 데모 :
우리는 주요 ST 작업의 4 그램 블루를 나열합니다.
일 | 블루 | 미리 훈련 된 모델 |
---|---|---|
Fisher-Callhome 스페인어 Fisher_test (es-> en) | 51.03 | 링크 |
Fisher-Callhome 스페인어 Callhome_evltest (es-> en) | 20.44 | 링크 |
라이브러스 트랜스 테스트 (en-> fr) | 16.70 | 링크 |
How2 dev5 (en-> pt) | 45.68 | 링크 |
Must-C TST-Common (en-> de) | 22.91 | 링크 |
Mboshi-French Dev (fr-> mboshi) | 6.18 | N/A |
일 | 블루 | 미리 훈련 된 모델 |
---|---|---|
Fisher-Callhome 스페인어 Fisher_test (es-> en) | 42.16 | N/A |
Fisher-Callhome 스페인어 Callhome_evltest (es-> en) | 19.82 | N/A |
라이브러스 트랜스 테스트 (en-> fr) | 16.96 | N/A |
How2 dev5 (en-> pt) | 44.90 | N/A |
Must-C TST-Common (en-> de) | 23.65 | N/A |
다른 레시피의 결과를 확인하려면 egs/<name_of_recipe>/st1/RESULTS.md
확인하십시오.
( New! ) 우리는 Google Colab에서 새로운 실시간 E2E-ST + TTS 데모를 만들었습니다. 다음 버튼에서 노트북에 액세스하고 실시간 연설 음성 변환을 즐기십시오!
미리 훈련 된 모델을 사용하여 wav 파일로 음성을 변환 할 수 있습니다. 레시피 디렉토리로 이동하여 utils/translate_wav.sh
실행하십시오.
# Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav
여기서 test.wav
는 변환 할 WAV 파일입니다. 샘플링 속도는 훈련에 사용되는 데이터와 일치해야합니다.
데모 스크립트에서 사용 가능한 미리 훈련 된 모델은 다음과 같이 나열되어 있습니다.
모델 | 메모 |
---|---|
Fisher_Callhome_spanish.transformer.v1 | Fisher-Callhome Spanish Es-> en |
일 | 블루 | 미리 훈련 된 모델 |
---|---|---|
Fisher-Callhome 스페인어 Fisher_test (es-> en) | 61.45 | 링크 |
Fisher-Callhome 스페인어 Callhome_evltest (es-> en) | 29.86 | 링크 |
라이브러스 트랜스 테스트 (en-> fr) | 18.09 | 링크 |
How2 dev5 (en-> pt) | 58.61 | 링크 |
Must-C TST-Common (en-> de) | 27.63 | 링크 |
IWSLT'14 Test2014 (en-> de) | 24.70 | 링크 |
IWSLT'14 Test2014 (de-> en) | 29.22 | 링크 |
IWSLT'14 Test2014 (de-> en) | 32.2 | 링크 |
IWSLT'16 Test2014 (en-> de) | 24.05 | 링크 |
IWSLT'16 Test2014 (de-> en) | 29.13 | 링크 |
다음 URL에서 생성 된 샘플을들을 수 있습니다.
그 세대에서는 그리핀-림 (
wav/
)과 병렬 파간 (wav_pwg/
)을 사용합니다.
espnet_model_zoo
를 통해 미리 훈련 된 모델을 다운로드 할 수 있습니다.
kan-bayashi/ParallelWaveGAN
통해 미리 훈련 된 보코더를 다운로드 할 수 있습니다.
참고 : 우리는 TTS를위한 ESPNET2 기반 개발을 진행하고 있습니다. 위의 ESPNET2 결과에서 최신 결과를 확인하십시오.
Demo HP ESPNET-TTS-Sample에서 샘플을들을 수 있습니다. 여기에 우리는 주목할만한 몇 가지를 나열합니다.
미리 훈련 된 모든 모델과 생성 된 샘플을 다운로드 할 수 있습니다.
생성 된 샘플에서는 Griffin-LIM ( GL ), Wavenet Vocoder ( Wavenet ), Parallel Wavegan ( Parallel Wavegan ) 및 Melgan ( Melgan )의 다음 보코더를 사용합니다. 신경 보코더는 다음 리포지토리를 기반으로합니다.
자신의 신경 보코더를 만들려면 위의 저장소를 확인하십시오. Kan-Bayashi/Parallel Wavegan은 ESPNET-TTS 모델의 기능을 신경 보코더로 디코딩하는 방법에 대한 설명서를 제공합니다. 확인하십시오.
여기에 우리는 미리 훈련 된 신경 보코더를 모두 나열합니다. 고품질 연설의 세대를 다운로드하여 즐기십시오!
모델 링크 | 랭 | FS [HZ] | Mel Range [HZ] | FFT / Shift / Win [PT] | 모델 유형 |
---|---|---|---|---|---|
ljspeech.wavenet.softmax.ns.v1 | en | 22.05K | 없음 | 1024 / 256 / 없음 | SoftMax Wavenet |
ljspeech.wavenet.mol.v1 | en | 22.05K | 없음 | 1024 / 256 / 없음 | Mol Wavenet |
ljspeech.parallel_wavegan.v1 | en | 22.05K | 없음 | 1024 / 256 / 없음 | 평행 파간 |
ljspeech.wavenet.mol.v2 | en | 22.05K | 80-7600 | 1024 / 256 / 없음 | Mol Wavenet |
ljspeech.parallel_wavegan.v2 | en | 22.05K | 80-7600 | 1024 / 256 / 없음 | 평행 파간 |
ljspeech.melgan.v1 | en | 22.05K | 80-7600 | 1024 / 256 / 없음 | 멜간 |
ljspeech.melgan.v3 | en | 22.05K | 80-7600 | 1024 / 256 / 없음 | 멜간 |
libritts.wavenet.mol.v1 | en | 24K | 없음 | 1024 / 256 / 없음 | Mol Wavenet |
jsut.wavenet.mol.v1 | JP | 24K | 80-7600 | 2048 / 300 / 1200 | Mol Wavenet |
jsut.parallel_wavegan.v1 | JP | 24K | 80-7600 | 2048 / 300 / 1200 | 평행 파간 |
csmsc.wavenet.mol.v1 | ZH | 24K | 80-7600 | 2048 / 300 / 1200 | Mol Wavenet |
csmsc.parallel_wavegan.v1 | ZH | 24K | 80-7600 | 2048 / 300 / 1200 | 평행 파간 |
위의 미리 훈련 된 보코더를 사용하려면 기능 설정과 정확히 일치하십시오.
Google Colab에서 실시간 데모를 시도 할 수 있습니다. 다음 버튼에서 노트북에 액세스하고 실시간 합성을 즐기십시오!
영어, 일본어 및 만다린 모델은 데모에서 제공됩니다.
참고 : 우리는 TTS를위한 ESPNET2 기반 개발을 진행하고 있습니다. 위의 ESPNET2 데모에서 최신 데모를 확인하십시오.
Google Colab에서 실시간 데모를 시도 할 수 있습니다. 다음 버튼에서 노트북에 액세스하고 실시간 합성을 즐기십시오.
또한 합성을 수행하기 위해 쉘 스크립트를 제공합니다. 레시피 디렉토리로 이동하여 utils/synth_wav.sh
실행하십시오.
# Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt
# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt
미리 훈련 된 모델을 다음과 같이 변경할 수 있습니다.
synth_wav.sh --models ljspeech.fastspeech.v1 example.txt
파형 합성은 그리핀 -LIM 알고리즘 및 신경 보코더 (Wavenet 및 Parallel Wavegan)로 수행됩니다. 미리 훈련 된 보코더 모델을 다음과 같이 변경할 수 있습니다.
synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt
Wavenet Vocoder는 매우 고품질의 연설을 제공하지만 생성하는 데 시간이 걸립니다.
--help
통해 자세한 내용 또는 사용 가능한 모델을 참조하십시오.
synth_wav.sh --help
데모 웹 페이지에서 일부 샘플을들을 수 있습니다.
Voice Conversion Challenge 2020 (VCC2020)은 ESPNET을 채택하여 엔드 투 엔드 기반 기준 시스템을 구축합니다. VCC2020에서, 목표는 내/언어 교차 비교 VC입니다. Cascade ASR+TTS 기준선 시스템의 변환 된 샘플을 여기에서 다운로드 할 수 있습니다.
원래 데이터 세트 용지에보고 된 메트릭을 사용하여 다양한 SLU 작업 및 데이터 세트에 대한 성능을 나열합니다.
일 | 데이터 세트 | 메트릭 | 결과 | 미리 훈련 된 모델 |
---|---|---|---|---|
의도 분류 | 슬러프 | acc | 86.3 | 링크 |
의도 분류 | FSC | acc | 99.6 | 링크 |
의도 분류 | FSC 보이지 않는 스피커 세트 | acc | 98.6 | 링크 |
의도 분류 | FSC 보이지 않는 발화 세트 | acc | 86.4 | 링크 |
의도 분류 | FSC 챌린지 스피커 세트 | acc | 97.5 | 링크 |
의도 분류 | FSC 챌린지 발화 세트 | acc | 78.5 | 링크 |
의도 분류 | 스네니 | F1 | 91.7 | 링크 |
의도 분류 | Grabo (NL) | acc | 97.2 | 링크 |
의도 분류 | 고양이 SLU지도 (Zn) | acc | 78.9 | 링크 |
의도 분류 | Google Speech 명령 | acc | 98.4 | 링크 |
슬롯 충전 | 슬러프 | SLU-F1 | 71.9 | 링크 |
대화 행위 분류 | 배전반 | acc | 67.5 | 링크 |
대화 행위 분류 | jdcinal (JP) | acc | 67.4 | 링크 |
감정 인식 | IEMOCAP | acc | 69.4 | 링크 |
감정 인식 | swbd_sentiment | 매크로 F1 | 61.4 | 링크 |
감정 인식 | slue_voxceleb | 매크로 F1 | 44.0 | 링크 |
다른 레시피의 결과를 확인하려면 egs2/<name_of_recipe>/asr1/RESULTS.md
확인하십시오.
CTC 세분화는 오디오 파일 내의 발화 세그먼트를 결정합니다. 정렬 된 발화 세그먼트는 음성 데이터 세트의 레이블을 구성합니다.
데모로서, 우리는 예제 스크립트 utils/asr_align_wav.sh
사용하여 오디오 파일 ctc_align_test.wav
내에서 발화의 시작과 끝을 정렬합니다. 준비하려면 데이터 디렉토리를 설정하십시오.
cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml
cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF
utt_text
는 발화 목록이 포함 된 파일입니다. 발화 세그먼트를 찾기 위해 CTC 계층이 포함 된 미리 훈련 된 ASR 모델을 선택하십시오.
# pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf
../../../utils/asr_align_wav.sh
--models ${model}
--align_dir ${align_dir}
--align_config ${align_dir} /align.yaml
${wav} ${align_dir} /utt_text
세그먼트는 파일/발화 이름 목록, 발화 시작 및 종료 시간 및 신뢰 점수로 aligned_segments
에 작성됩니다. 신뢰 점수는 로그 공간의 확률로 발화가 얼마나 잘 정렬되었는지를 나타냅니다. 필요한 경우 나쁜 말을 제거하십시오.
min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments
데모 스크립트 utils/ctc_align_wav.sh
이미 미리 훈련 된 ASR 모델을 사용합니다 (더 많은 모델은 위의 목록 참조). 대형 오디오 파일을 정렬하기 위해 RNN 기반 인코더 (예 : BLSTMP)가있는 모델을 사용하는 것이 좋습니다. 더 긴 오디오 데이터에서 메모리 소비가 높은 변압기 모델을 사용하는 대신. 오디오의 샘플 속도는 교육에 사용 된 데이터의 샘플 속도와 일치해야합니다. 필요한 경우 sox
로 조정하십시오. 전체 예제 레시피는 egs/tedlium2/align1/
에 있습니다.
CTC 세분화는 오디오 파일 내의 발화 세그먼트를 결정합니다. 정렬 된 발화 세그먼트는 음성 데이터 세트의 레이블을 구성합니다.
데모로서, 우리는 오디오 파일 ctc_align_test.wav
내에서 발화의 시작과 끝을 정렬합니다. 이것은 Python 명령 줄에서 직접 또는 스크립트 espnet2/bin/asr_align.py
사용하여 수행 할 수 있습니다.
Python 명령 줄 인터페이스에서 :
# load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT
정렬은 텍스트 조각과도 작동합니다. 이를 위해 페널티없이 관련없는 오디오 섹션을 건너 뛰는 gratis_blank
옵션을 설정하십시오. kaldi_style_text
False로 설정하여 각 줄의 시작 부분에서 발화 이름을 생략 할 수도 있습니다.
aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT
스크립트 espnet2/bin/asr_align.py
는 유사한 인터페이스를 사용합니다. 발화를 조정하려면 :
# ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT
인수 --output segments
추가하여 스크립트의 출력을 segments
파일로 리디렉션 할 수 있습니다. 각 줄에는 파일/발화 이름, 발화 시작 및 종료 시간이 몇 초이며 신뢰 점수가 포함됩니다. 선택적으로 발화 텍스트. 신뢰 점수는 로그 공간의 확률로 발화가 얼마나 잘 정렬되었는지를 나타냅니다. 필요한 경우 나쁜 말을 제거하십시오.
min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments
자세한 내용은 모듈 문서를 참조하십시오. 대형 오디오 파일을 정렬하기 위해 RNN 기반 인코더 (예 : BLSTMP)가있는 모델을 사용하는 것이 좋습니다. 더 긴 오디오 데이터에서 메모리 소비가 높은 변압기 모델을 사용하는 대신. 오디오의 샘플 속도는 교육에 사용 된 데이터의 샘플 속도와 일치해야합니다. 필요한 경우 sox
로 조정하십시오.
또한이 도구를 사용하여 text
파일의 발언 대신 토큰 목록을 준비하면 토큰 수준 세그먼테이션 정보를 제공 할 수 있습니다. #4278 (댓글)의 토론을 참조하십시오.
@inproceedings{watanabe2018espnet,
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
title={{ESPnet}: End-to-End Speech Processing Toolkit},
year={2018},
booktitle={Proceedings of Interspeech},
pages={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7654--7658},
year={2020},
organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
author = "Inaguma, Hirofumi and
Kiyono, Shun and
Duh, Kevin and
Karita, Shigeki and
Yalta, Nelson and
Hayashi, Tomoki and
Watanabe, Shinji",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
pages = "302--311",
}
@article{hayashi2021espnet2,
title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
journal={arXiv preprint arXiv:2110.07840},
year={2021}
}
@inproceedings{li2020espnet,
title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
pages={785--792},
year={2021},
organization={IEEE},
}
@inproceedings{arora2021espnet,
title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7167--7171},
year={2022},
organization={IEEE}
}
@inproceedings{shi2022muskits,
author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
year={2022},
booktitle={Proceedings of Interspeech},
pages={4277-4281},
url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
year=2022,
booktitle={Proc. Interspeech 2022},
pages={5458--5462},
}
@inproceedings{gao2023euro,
title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}
@inproceedings{peng2023reproducing,
title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@inproceedings{sharma2023espnet,
title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@article{jung2024espnet,
title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
journal={Proc. Interspeech 2024},
year={2024}
}
@inproceedings{yan-etal-2023-espnet,
title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
author = "Yan, Brian and
Shi, Jiatong and
Tang, Yun and
Inaguma, Hirofumi and
Peng, Yifan and
Dalmia, Siddharth and
Pol{'a}k, Peter and
Fernandes, Patrick and
Berrebbi, Dan and
Hayashi, Tomoki and
Zhang, Xiaohui and
Ni, Zhaoheng and
Hira, Moto and
Maiti, Soumi and
Pino, Juan and
Watanabe, Shinji",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
year = "2023",
publisher = "Association for Computational Linguistics",
pages = "400--411",
}