espnet 다운로드 espnet 소스 코드 다운로드

espnet

기타 소스코드

version 202409

다운로드

우분투/python3.11/pip Ubuntu/Python3.10/Conda Debian11/Python3.10/Conda Windows/Python3.10/PIP MacOS/Python3.10/PIP MacOS/Python3.10/Conda

문서 | 예 | 예제 (ESPNET2) | 도커 | 공책

ESPNET은 엔드 투 엔드 스피치 프로세싱 툴킷으로 엔드 투 엔드 음성 인식, 텍스트 음성 연설, 음성 번역, 음성 향상, 스피커 발기, 언어 이해 등을 다루는 엔드 투 엔드 스피치 프로세스 툴킷입니다. ESPNET은 Pytorch를 딥 러닝 엔진으로 사용하고 Kaldi 스타일 데이터 처리, 기능 추출/형식 및 레시피를 따라 다양한 음성 처리 실험을위한 완벽한 설정을 제공합니다.

튜토리얼 시리즈

Interspeech의 2019 튜토리얼
- 재료
2021 CMU 튜토리얼
- 온라인 비디오
- 재료
CMU의 2022 튜토리얼
- ESPNET 사용 (예로서 ASR)
  - 온라인 비디오
  - 재료
- ESPNET에 새로운 모델/작업을 추가하십시오
  - 온라인 비디오
  - 재료

주요 기능

칼디 스타일의 완전한 레시피

ASR 레시피의 지원 번호 (WSJ, 배전판, Chime-4/5, Librispeech, TED, CSJ, AMI, HKUST, VOXFORGE, Reverb, Gigaspeech 등)
ASR 레시피와 유사한 방식으로 TTS 레시피의 수를 지원합니다 (LJSpeech, Libritts, M-Aailabs 등)
ST 레시피의 지원 번호 (Fisher-Callhome Spanish, Libri-Trans, IWSLT'18, How2, Must-C, Mboshi-French 등)
MT 레시피의 지원 번호 (IWSLT'14, IWSLT'16, 위의 ST 레시피 등)
SLU 레시피의 지원 번호 (Catslu-Maps, FSC, Grabo, IEMOCAP, JDCINAL, SNIPS, SLURP, SWBD-DA 등)
SE/SS 레시피의 지원 수 (DNS-IS2020, Librimix, SMS-WSJ, VCTK-NOISYREVERB, WHAM!, WHAMR!, WSJ-2MIX 등)
음성 변환 레시피 지원 (VCC2020 기준선)
지원 스피커기구 레시피 (mini_librispeech, librimix)
노래하는 음성 합성 레시피 지원 (Ofuton_P_UTAGOE_DB, OPENCPOP, M4SINGER 등)

ASR : 자동 음성 인식

여러 ASR 벤치 마크에서 최첨단 성과 (하이브리드 DNN/HMM 및 CTC보다 비슷한/우수)
하이브리드 CTC/주의 기반 엔드 투 엔드 ASR
- CTC/관심 멀티 태스킹 교육을 통한 빠른/정확한 교육
- CTC/주의 조인트 디코딩을위한 단조 정렬 디코딩
- 인코더 : VGG- 유사 CNN + BIRNN (LSTM/GRU), 하위 샘플링 BIRNN (LSTM/GRU), 트랜스포머, 컨 포머, 브랜치 포맷터 또는 e- 브랜치 포어
- 디코더 : RNN (LSTM/GRU), 변압기 또는 S4
주의 : 플래시주의, 도트 제품, 위치 인식 관심, 다중 헤드 변형
텍스트 데이터만으로 훈련 된 rnnlm/lstmlm/transformerlm/n-gram을 통합하십시오
배치 GPU 디코딩
데이터 확대
트랜스 듀서 기반 엔드 투 엔드 ASR
- 건축학:
  - RNNS, CONFORMER, BRA.FORMER (변형), 1D CONV / TDNN을 지원하는 사용자 정의 엔코더.
  - RNN, SANTELESS W/ 1D CONV, MEGA 및 RWKV를 지원하는 블록에서 공유되는 매개 변수가있는 디코더.
  - 사전 인코더 : vgg2l 또는 conc2d 사용 가능.
- 검색 알고리즘 :
  - 욕심 많은 검색은 타임 스텝에 의해 하나의 배출로 제한됩니다.
  - 접두사 검색없이 기본 빔 검색 알고리즘 [Graves, 2012].
  - 정렬 길이 동기 디코딩 [Saon et al., 2020].
  - 시간 동기 디코딩 [Saon et al., 2020].
  - [Kim et al., 2020]에서 수정 된 N 단계 제약 빔 검색.
  - [Kim et al., 2021] 및 NSC를 기반으로 한 수정 된 적응성 확장 검색.
- 특징:
  - 오프라인 및 스트리밍 음성 인식을위한 통합 인터페이스.
  - 다양한 보조 손실을 가진 멀티 태스킹 학습 :
    - 인코더 : CTC, 보조 트랜스 듀서 및 대칭 KL 발산.
    - 디코더 : 라벨 스무딩이있는 크로스 엔트로피.
  - 음향 모델 및/또는 언어 모델로 학습을 전송합니다.
  - Fastemit 정규화 방법으로 훈련 [Yu et al., 2021].
전체 문서는 튜토리얼 페이지를 참조하십시오.
CTC 세분화
Mask-CTC를 기반으로 한 비 유사성 모델
멸종 위기에 처한 언어 문서를 지원하기위한 ASR 예제 (자세한 내용은 EGS/Puebla_nahuatl 및 EGS/YOLOXOCHITL_MIXTEC를 참조하십시오)
FairSeq에서 가져온 인코더로서 WAV2VEC2.0 사전 훈련 된 모델.
Frontend의 S3PRL에서 업스트림 모델을 사용하여 기능으로 자체 감독 학습 표현.
- s3prl 로 frontend 설정하십시오
- frontend_conf 해당 이름으로 설정하여 업스트림 모델을 선택하십시오.
전송 학습 :
- ESPNET Hugging Face Repository의 그룹 또는 모델에서 이전에 교육을받은 모델에서 쉽게 사용하고 전송합니다.
- Colab에서 실행 가능한 문서 및 장난감 예제.
블록 동기 빔 검색이있는 스트리밍 변압기/적합성 ASR.
Longformer를 기준으로 긴 시퀀스를위한 인코더로 기준 제한된 자체 변환
Openai Whisper Model, 대규모, 약한 감독 멀티 태스킹 학습을 기반으로 한 강력한 ASR

데모

ESPNET2의 실시간 ASR 데모
포옹 페이스 공간에 대한 Gradio 웹 데모. 웹 데모를 확인하십시오
ESPNET2를 사용한 스트리밍 변압기 ASR 로컬 데모.

TTS : 텍스트 음주

건축학
- 타코 트론 2
- 변압기 tts
- FastSpeech
- FastSpeech2
- Conformer FastSpeech & FastSpeech2
- vits
- 제트기
멀티 스피커 및 다중 언어 확장
- 미리 훈련 된 스피커 임베딩 (예 : X-Vector)
- 스피커 ID 포함
- 언어 ID 포함
- 글로벌 스타일 토큰 (GST) 임베딩
- 위의 임베딩의 혼합
엔드 투 엔드 훈련
- 엔드 투 엔드 텍스트-웨이브 모델 (예 : VITS, 제트기 등)
- Text2MEL 및 COBODER의 공동 교육
다양한 언어 지원
- en / jp / zn / de / ru / 및 more ...
신경 보코더와의 통합
- 평행 파간
- 멜간
- 다중 대역 멜간
- Hifigan
- 스타일 멜간
- 위의 모델의 혼합

데모

ESPNET2를 사용한 실시간 TTS 데모
Gradio와 함께 얼굴 공간을 포옹하는 데 통합되었습니다. 데모 참조 :

신경 보코더를 훈련 시키려면 다음 저장소를 확인하십시오.

Kan-Bayashi/Parallel Wavegan
r9y9/wavenet_vocoder

SE : 음성 향상 (및 분리)

단일 스피커 음성 향상
멀티 스피커 음성 분리
시간 도메인 및 주파수 도메인 모델을위한 통합 인코더 분리기 디코더 구조
- 인코더/디코더 : STFT/ISTFT, 컨볼 루션/전환-컨 볼루션
- 분리기 : BLSTM, 변압기, 컨 포머, TASNET, DPRNN, Skim, Svoice, DC-CRN, DCCRN, Deep Clustering, Deep Awartor Network, Fasnet, Ifasnet, Neural Beamformers 등.
유연한 ASR 통합 : 개별 작업 또는 ASR 프론트 엔드로 작업
소행성에서 미리 훈련 된 모델을 쉽게 가져 오기 쉽습니다
- 소행성에서 미리 훈련 된 모델과 특정 구성이 모두 지원됩니다.

데모

ESPNET2를 사용한 대화식 SE 데모
ESPNET2로 스트리밍 SE 데모

ST : Speech Translation & MT : 기계 번역

여러 ST 벤치 마크 (Cascaded ASR 및 MT보다 비슷한/우수)에서 최첨단 성과
변압기 기반 엔드 투 엔드 ST (New!)
변압기 기반 엔드 투 엔드 MT (New!)

VC : 음성 변환

MEL 분광기를 사용한 변압기 및 타코 트론 2 기반 병렬 VC
계단식 ASR+TTS를 기반으로 한 엔드 투 엔드 VC (음성 변환 챌린지를위한 기준 시스템 2020!)

SLU : 언어 이해

건축학
- 변압기 기반 인코더
- 순응 기반 인코더
- Branchformer 기반 인코더
- e-branchformer 기반 인코더
- RNN 기반 디코더
- 변압기 기반 디코더
ASR로 멀티 태스킹을 지원하십시오
- 의도와 ASR 전 사체를 모두 예측합니다
NLU로 멀티 태스킹을 지원합니다
- 심의 엔코더 기반 2 패스 모델
미리 훈련 된 ASR 모델을 사용한 지원
- 허버트
- WAV2VEC2
- VQ-APC
- 테라 등 ...
미리 훈련 된 NLP 모델을 사용한 지원
- 버트
- MPNET 등 ...
다양한 언어 지원
- en / jp / zn / nl / more ...
이전 발언의 컨텍스트를 사용하여 지원합니다
파이프 라인 방식으로 SE와 같은 다른 작업을 지원합니다.
오디오와 ASR 전사 시연을 결합한 2 개의 패스 SLU를 지원합니다.
언어 향상 모델을 사용하여 노이즈어 구어 언어 이해를 수행 한 다음 언어 이해 모델이 이어집니다.
두 번째 패스 모델이 어쿠스틱 및 시맨틱 정보에 참석하는 곳에서 2 패스 음성 언어 이해를 수행합니다.
Gradio와 함께 얼굴 공간을 포옹하는 데 통합되었습니다. 여러 언어의 SLU 데모를 참조하십시오.

합 : 음성 요약

제한된 자체 소지를 사용한 교육용 비디오에 대한 끝에서 최종 연설 요약 레시피 [Sharma et al., 2022]

SVS : 노래 음성 합성

프레임 워크는 머스크와 병합됩니다
건축학
- RNN 기반 비 유포리 모델
- Xiaoice
- 타코트론-싱싱
- Diffsinger (진행중인)
- 비거
- Visinger 2 (다른 보코더-아치의 변형)
멀티 스피커 및 다국어 노래 합성을 지원합니다
- 스피커 ID 포함
- 언어 ID 포함
다양한 언어 지원
- JP / EN / KR / ZH
신경 보코더와의 엄격한 통합 (TTS와 동일)

SSL : 자기 감독 학습

Hubert 사전 훈련 지원 :
- 예제 레시피 : egs2/librispeech/ssl1

UASR : 감독되지 않은 ASR (EURO : ESPNET 비 감독 인식 - 오픈 소스)

건축학
- WAV2VEC-U (다른 자체 감독 모델 포함)
- WAV2VEC-U 2.0 (진행중인)
PrefixBeamSearch 및 K2 기반 WFST 디코딩을 지원합니다

S2T : Whisper 스타일의 다국어 멀티 태스킹 모델이 포함 된 Speech-to-Text

공개 데이터 : OWSM을 사용하여 처음부터 속삭임 스타일 교육을 재현합니다
단일 모델에서 여러 작업을 지원합니다
- 다국어 음성 인식
- 모든 연설 번역
- 언어 식별
- 발화 수준 타임 스탬프 예측 (세분화)

DNN 프레임 워크

Chainer와 Pytorch 덕분에 유연한 네트워크 아키텍처
Kaldiio 및 HDF5 지원 덕분에 유연한 프론트 엔드 처리
텐서 보드 기반 모니터링
심해 기반 대규모 교육

ESPNET2

ESPNET2를 참조하십시오.

ESPNET1과 달리 Kaldi/Chainer와 독립적입니다
훈련시 비행 내 기능 추출 및 텍스트 처리
DistributedDataparAllel 및 DaraparAllel 지원
여러 노드 교육 지원 및 Slurm 또는 MPI와 통합
FairScale에서 제공하는 샤드 교육 지원
모든 Corpora에 적용 할 수있는 템플릿 레시피
CPU 메모리 오류없이 모든 규모의 코퍼스를 훈련시킬 수 있습니다.
ESPNET 모델 동물원
WANDB와 통합

설치

DNN 교육을 포함한 전체 실험을하려는 경우 설치를 참조하십시오.

파이썬 모듈 만 있으면 :

 # We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"

ESPNET1을 사용하는 경우 Chainer 및 Cupy를 설치하십시오.

pip install chainer==6.0.0 cupy==6.0.0    # [Option]

각 작업에 따라 일부 패키지를 설치해야 할 수도 있습니다. 도구/설치자에서 다양한 설치 스크립트를 준비했습니다.

(ESPNET2) 일단 설치되면 W & B를 사용하여 추적 실행을 활성화하려면 wandb login 실행하고 set --use_wandb true .

도커 컨테이너

Docker/로 가서 지침을 따르십시오.

기부금

ESPNET에 시간을 내 주셔서 감사합니다! ESPNET에 대한 모든 기여는 환영하며 질문이나 문제에 대한 질문을 자유롭게 요청하십시오. 첫 번째 ESPNET 기부금이라면 기여 가이드를 따르십시오.

ASR 결과

확장하다

주요 ASR 작업의 문자 오류율 (CER) 및 WER (Word 오류율)을 나열합니다.

일	CER (%)	wer (%)	미리 훈련 된 모델
Aishell Dev/Test	4.6/5.1	N/A	링크
ESPNET2 Aishell Dev/Test	4.1/4.4	N/A	링크
일반적인 음성 개발자/테스트	1.7/1.8	2.2/2.3	링크
CSJ Eval1/Eval2/Eval3	5.7/3.8/4.2	N/A	링크
ESPNET2 CSJ EVAL1/EVAT2/EVAT3	4.5/3.3/3.6	N/A	링크
ESPNET2 gigaspeech dev/test	N/A	10.6/10.5	링크
Hkust Dev	23.5	N/A	링크
ESPNET2 HKUST DEV	21.2	N/A	링크
librispeech dev_clean/dev_other/test_clean/test_other	N/A	1.9/4.9/2.1/4.9	링크
ESPNET2 librispeech dev_clean/dev_other/test_clean/test_other	0.6/1.5/0.6/1.4	1.7/3.4/1.8/3.6	링크
전환 보드 (Eval2000) Callhm/SWBD	N/A	14.0/6.8	링크
ESPNET2 전환 보드 (Eval2000) Callhm/SWBD	N/A	13.4/7.3	링크
Tedlium2 Dev/Test	N/A	8.6/7.2	링크
ESPNET2 TEDLIUM2 DEV/TEST	N/A	7.3/7.1	링크
Tedlium3 dev/test	N/A	9.6/7.6	링크
WSJ Dev93/Eval92	3.2/2.1	7.0/4.7	N/A
ESPNET2 WSJ Dev93/Eval92	1.1/0.8	2.8/1.8	링크

CSJ, Hkust 및 LibrisPeech 작업의 성능은 RWTH가보고 한 필요한 경우 와이드 네트워크 (#units = 1024) 및 대형 서브 워드 장치를 사용하여 크게 향상되었습니다.

다른 레시피의 결과를 확인하려면 egs/<name_of_recipe>/asr1/RESULTS.md 확인하십시오.

ASR 데모

확장하다

미리 훈련 된 모델을 사용하여 WAV 파일로 음성을 인식 할 수 있습니다. 레시피 디렉토리로 이동하여 utils/recog_wav.sh 실행하십시오.

 # go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav

여기서 example.wav 는 인식 할 WAV 파일입니다. 샘플링 속도는 훈련에 사용되는 데이터와 일치해야합니다.

데모 스크립트에서 사용 가능한 미리 훈련 된 모델은 다음과 같습니다.

모델	메모
Tedlium2.rnn.v1	CTC 기반 VAD에 기초한 스트리밍 디코딩
Tedlium2.rnn.v2	CTC 기반 VAD를 기반으로 한 스트리밍 디코딩 (배치 디코딩)
Tedlium2.transformer.v1	공동 -CTC주의 변압기 2
Tedlium3.transformer.v1	공동 -CTC주의 변압기 3
librispeech.transformer.v1	Librispeech에서 훈련 된 Joint-CTC주의 변압기
CommonVoice.transformer.v1	CommonVoice에 대한 조인트 CTC주의 변압기
csj.transformer.v1	CSJ에서 훈련 된 Joint-CTC주의 변압기
CSJ.RNN.V1	공동 -CTC 관심 VGGBLSTM CSJ에 대한 교육

SE 결과

확장하다

우리는 WSJ0-2Mix의 세 가지 모델에서 결과를 나열합니다.이 모델은 음성 분리에 가장 널리 사용되는 벤치 마크 데이터 세트 중 하나입니다.

모델	스토이	SAR	SDR	선생님
TF 마스킹	0.89	11.40	10.24	18.04
CONL-TASNET	0.95	16.62	15.94	25.90
dprnn-tasnet	0.96	18.82	18.29	28.92

SE 데모

확장하다

Google Colab으로 대화식 데모를 시도 할 수 있습니다. 데모에 액세스하려면 다음 버튼을 클릭하십시오.

ESPNET2를 기반으로합니다. 미리 훈련 된 모델은 음성 향상 및 음성 분리 작업 모두에 사용할 수 있습니다.

음성 분리 스트리밍 데모 :

ST 결과

확장하다

우리는 주요 ST 작업의 4 그램 블루를 나열합니다.

엔드 투 엔드 시스템

일	블루	미리 훈련 된 모델
Fisher-Callhome 스페인어 Fisher_test (es-> en)	51.03	링크
Fisher-Callhome 스페인어 Callhome_evltest (es-> en)	20.44	링크
라이브러스 트랜스 테스트 (en-> fr)	16.70	링크
How2 dev5 (en-> pt)	45.68	링크
Must-C TST-Common (en-> de)	22.91	링크
Mboshi-French Dev (fr-> mboshi)	6.18	N/A

계단식 시스템

일	블루	미리 훈련 된 모델
Fisher-Callhome 스페인어 Fisher_test (es-> en)	42.16	N/A
Fisher-Callhome 스페인어 Callhome_evltest (es-> en)	19.82	N/A
라이브러스 트랜스 테스트 (en-> fr)	16.96	N/A
How2 dev5 (en-> pt)	44.90	N/A
Must-C TST-Common (en-> de)	23.65	N/A

다른 레시피의 결과를 확인하려면 egs/<name_of_recipe>/st1/RESULTS.md 확인하십시오.

세인트 데모

확장하다

( New! ) 우리는 Google Colab에서 새로운 실시간 E2E-ST + TTS 데모를 만들었습니다. 다음 버튼에서 노트북에 액세스하고 실시간 연설 음성 변환을 즐기십시오!

미리 훈련 된 모델을 사용하여 wav 파일로 음성을 변환 할 수 있습니다. 레시피 디렉토리로 이동하여 utils/translate_wav.sh 실행하십시오.

 # Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav

여기서 test.wav 는 변환 할 WAV 파일입니다. 샘플링 속도는 훈련에 사용되는 데이터와 일치해야합니다.

데모 스크립트에서 사용 가능한 미리 훈련 된 모델은 다음과 같이 나열되어 있습니다.

모델	메모
Fisher_Callhome_spanish.transformer.v1	Fisher-Callhome Spanish Es-> en

MT 결과

확장하다

일	블루	미리 훈련 된 모델
Fisher-Callhome 스페인어 Fisher_test (es-> en)	61.45	링크
Fisher-Callhome 스페인어 Callhome_evltest (es-> en)	29.86	링크
라이브러스 트랜스 테스트 (en-> fr)	18.09	링크
How2 dev5 (en-> pt)	58.61	링크
Must-C TST-Common (en-> de)	27.63	링크
IWSLT'14 Test2014 (en-> de)	24.70	링크
IWSLT'14 Test2014 (de-> en)	29.22	링크
IWSLT'14 Test2014 (de-> en)	32.2	링크
IWSLT'16 Test2014 (en-> de)	24.05	링크
IWSLT'16 Test2014 (de-> en)	29.13	링크

TTS 결과

ESPNET2

다음 URL에서 생성 된 샘플을들을 수 있습니다.

ESPNET2 TTS가 생성 된 샘플

그 세대에서는 그리핀-림 ( wav/ )과 병렬 파간 ( wav_pwg/ )을 사용합니다.

espnet_model_zoo 를 통해 미리 훈련 된 모델을 다운로드 할 수 있습니다.

ESPNET 모델 동물원
미리 훈련 된 모델 목록

kan-bayashi/ParallelWaveGAN 통해 미리 훈련 된 보코더를 다운로드 할 수 있습니다.

Kan-Bayashi/Parallel Wavegan
미리 훈련 된 보코더 목록

ESPNET1

참고 : 우리는 TTS를위한 ESPNET2 기반 개발을 진행하고 있습니다. 위의 ESPNET2 결과에서 최신 결과를 확인하십시오.

Demo HP ESPNET-TTS-Sample에서 샘플을들을 수 있습니다. 여기에 우리는 주목할만한 몇 가지를 나열합니다.

단일 영어 스피커 Tacotron2
단일 일본 스피커 Tacotron2
단일 언어 스피커 Tacotron2
멀티 영어 스피커 Tacotron2
단일 영어 스피커 변압기
단일 영어 스피커 FastSpeech
멀티 영어 스피커 변압기
단일 이탈리아 스피커 FastSpeech
단일 만다린 스피커 변압기
단일 만다린 스피커 FastSpeech
다중 일본 스피커 변압기
평행 파간을 가진 단일 영어 스피커 모델
단일 영어 사용자 지식 증류 기반 FastSpeech

미리 훈련 된 모든 모델과 생성 된 샘플을 다운로드 할 수 있습니다.

미리 훈련 된 모든 E2E-TTS 모델
생성 된 모든 샘플

생성 된 샘플에서는 Griffin-LIM ( GL ), Wavenet Vocoder ( Wavenet ), Parallel Wavegan ( Parallel Wavegan ) 및 Melgan ( Melgan )의 다음 보코더를 사용합니다. 신경 보코더는 다음 리포지토리를 기반으로합니다.

Kan-Bayashi / Parallel Wavegan : 병렬 파간 / 멜간 / 다중 대역 Melgan
R9Y9/wavenet_vocoder : 물류 wavenet vocoder의 16 비트 혼합물
Kan-Bayashi/Pytorchwavenetvocoder : 노이즈 쉐이핑이있는 8 비트 Softmax Wavenet 보코더

자신의 신경 보코더를 만들려면 위의 저장소를 확인하십시오. Kan-Bayashi/Parallel Wavegan은 ESPNET-TTS 모델의 기능을 신경 보코더로 디코딩하는 방법에 대한 설명서를 제공합니다. 확인하십시오.

여기에 우리는 미리 훈련 된 신경 보코더를 모두 나열합니다. 고품질 연설의 세대를 다운로드하여 즐기십시오!

모델 링크	랭	FS [HZ]	Mel Range [HZ]	FFT / Shift / Win [PT]	모델 유형
ljspeech.wavenet.softmax.ns.v1	en	22.05K	없음	1024 / 256 / 없음	SoftMax Wavenet
ljspeech.wavenet.mol.v1	en	22.05K	없음	1024 / 256 / 없음	Mol Wavenet
ljspeech.parallel_wavegan.v1	en	22.05K	없음	1024 / 256 / 없음	평행 파간
ljspeech.wavenet.mol.v2	en	22.05K	80-7600	1024 / 256 / 없음	Mol Wavenet
ljspeech.parallel_wavegan.v2	en	22.05K	80-7600	1024 / 256 / 없음	평행 파간
ljspeech.melgan.v1	en	22.05K	80-7600	1024 / 256 / 없음	멜간
ljspeech.melgan.v3	en	22.05K	80-7600	1024 / 256 / 없음	멜간
libritts.wavenet.mol.v1	en	24K	없음	1024 / 256 / 없음	Mol Wavenet
jsut.wavenet.mol.v1	JP	24K	80-7600	2048 / 300 / 1200	Mol Wavenet
jsut.parallel_wavegan.v1	JP	24K	80-7600	2048 / 300 / 1200	평행 파간
csmsc.wavenet.mol.v1	ZH	24K	80-7600	2048 / 300 / 1200	Mol Wavenet
csmsc.parallel_wavegan.v1	ZH	24K	80-7600	2048 / 300 / 1200	평행 파간

위의 미리 훈련 된 보코더를 사용하려면 기능 설정과 정확히 일치하십시오.

TTS 데모

ESPNET2

Google Colab에서 실시간 데모를 시도 할 수 있습니다. 다음 버튼에서 노트북에 액세스하고 실시간 합성을 즐기십시오!

ESPNET2를 사용한 실시간 TTS 데모

영어, 일본어 및 만다린 모델은 데모에서 제공됩니다.

ESPNET1

참고 : 우리는 TTS를위한 ESPNET2 기반 개발을 진행하고 있습니다. 위의 ESPNET2 데모에서 최신 데모를 확인하십시오.

Google Colab에서 실시간 데모를 시도 할 수 있습니다. 다음 버튼에서 노트북에 액세스하고 실시간 합성을 즐기십시오.

ESPNET1의 실시간 TTS 데모

또한 합성을 수행하기 위해 쉘 스크립트를 제공합니다. 레시피 디렉토리로 이동하여 utils/synth_wav.sh 실행하십시오.

 # Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt

# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt

미리 훈련 된 모델을 다음과 같이 변경할 수 있습니다.

synth_wav.sh --models ljspeech.fastspeech.v1 example.txt

파형 합성은 그리핀 -LIM 알고리즘 및 신경 보코더 (Wavenet 및 Parallel Wavegan)로 수행됩니다. 미리 훈련 된 보코더 모델을 다음과 같이 변경할 수 있습니다.

synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt

Wavenet Vocoder는 매우 고품질의 연설을 제공하지만 생성하는 데 시간이 걸립니다.

--help 통해 자세한 내용 또는 사용 가능한 모델을 참조하십시오.

synth_wav.sh --help

VC 결과

확장하다

변압기 및 타코 트론 2 기반 VC

데모 웹 페이지에서 일부 샘플을들을 수 있습니다.

Cascade ASR+TTS VCC2020의 기준 시스템 중 하나입니다.

Voice Conversion Challenge 2020 (VCC2020)은 ESPNET을 채택하여 엔드 투 엔드 기반 기준 시스템을 구축합니다. VCC2020에서, 목표는 내/언어 교차 비교 VC입니다. Cascade ASR+TTS 기준선 시스템의 변환 된 샘플을 여기에서 다운로드 할 수 있습니다.

SLU 결과

확장하다

원래 데이터 세트 용지에보고 된 메트릭을 사용하여 다양한 SLU 작업 및 데이터 세트에 대한 성능을 나열합니다.

일	데이터 세트	메트릭	결과	미리 훈련 된 모델
의도 분류	슬러프	acc	86.3	링크
의도 분류	FSC	acc	99.6	링크
의도 분류	FSC 보이지 않는 스피커 세트	acc	98.6	링크
의도 분류	FSC 보이지 않는 발화 세트	acc	86.4	링크
의도 분류	FSC 챌린지 스피커 세트	acc	97.5	링크
의도 분류	FSC 챌린지 발화 세트	acc	78.5	링크
의도 분류	스네니	F1	91.7	링크
의도 분류	Grabo (NL)	acc	97.2	링크
의도 분류	고양이 SLU지도 (Zn)	acc	78.9	링크
의도 분류	Google Speech 명령	acc	98.4	링크
슬롯 충전	슬러프	SLU-F1	71.9	링크
대화 행위 분류	배전반	acc	67.5	링크
대화 행위 분류	jdcinal (JP)	acc	67.4	링크
감정 인식	IEMOCAP	acc	69.4	링크
감정 인식	swbd_sentiment	매크로 F1	61.4	링크
감정 인식	slue_voxceleb	매크로 F1	44.0	링크

다른 레시피의 결과를 확인하려면 egs2/<name_of_recipe>/asr1/RESULTS.md 확인하십시오.

CTC 세분화 데모

ESPNET1

CTC 세분화는 오디오 파일 내의 발화 세그먼트를 결정합니다. 정렬 된 발화 세그먼트는 음성 데이터 세트의 레이블을 구성합니다.

데모로서, 우리는 예제 스크립트 utils/asr_align_wav.sh 사용하여 오디오 파일 ctc_align_test.wav 내에서 발화의 시작과 끝을 정렬합니다. 준비하려면 데이터 디렉토리를 설정하십시오.

 cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml

cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF

utt_text 는 발화 목록이 포함 된 파일입니다. 발화 세그먼트를 찾기 위해 CTC 계층이 포함 된 미리 훈련 된 ASR 모델을 선택하십시오.

 # pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf

../../../utils/asr_align_wav.sh 
    --models ${model} 
    --align_dir ${align_dir} 
    --align_config ${align_dir} /align.yaml 
    ${wav} ${align_dir} /utt_text

세그먼트는 파일/발화 이름 목록, 발화 시작 및 종료 시간 및 신뢰 점수로 aligned_segments 에 작성됩니다. 신뢰 점수는 로그 공간의 확률로 발화가 얼마나 잘 정렬되었는지를 나타냅니다. 필요한 경우 나쁜 말을 제거하십시오.

min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments

데모 스크립트 utils/ctc_align_wav.sh 이미 미리 훈련 된 ASR 모델을 사용합니다 (더 많은 모델은 위의 목록 참조). 대형 오디오 파일을 정렬하기 위해 RNN 기반 인코더 (예 : BLSTMP)가있는 모델을 사용하는 것이 좋습니다. 더 긴 오디오 데이터에서 메모리 소비가 높은 변압기 모델을 사용하는 대신. 오디오의 샘플 속도는 교육에 사용 된 데이터의 샘플 속도와 일치해야합니다. 필요한 경우 sox 로 조정하십시오. 전체 예제 레시피는 egs/tedlium2/align1/ 에 있습니다.

ESPNET2

CTC 세분화는 오디오 파일 내의 발화 세그먼트를 결정합니다. 정렬 된 발화 세그먼트는 음성 데이터 세트의 레이블을 구성합니다.

데모로서, 우리는 오디오 파일 ctc_align_test.wav 내에서 발화의 시작과 끝을 정렬합니다. 이것은 Python 명령 줄에서 직접 또는 스크립트 espnet2/bin/asr_align.py 사용하여 수행 할 수 있습니다.

Python 명령 줄 인터페이스에서 :

 # load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT

정렬은 텍스트 조각과도 작동합니다. 이를 위해 페널티없이 관련없는 오디오 섹션을 건너 뛰는 gratis_blank 옵션을 설정하십시오. kaldi_style_text False로 설정하여 각 줄의 시작 부분에서 발화 이름을 생략 할 수도 있습니다.

 aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT

스크립트 espnet2/bin/asr_align.py 는 유사한 인터페이스를 사용합니다. 발화를 조정하려면 :

 # ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT

인수 --output segments 추가하여 스크립트의 출력을 segments 파일로 리디렉션 할 수 있습니다. 각 줄에는 파일/발화 이름, 발화 시작 및 종료 시간이 몇 초이며 신뢰 점수가 포함됩니다. 선택적으로 발화 텍스트. 신뢰 점수는 로그 공간의 확률로 발화가 얼마나 잘 정렬되었는지를 나타냅니다. 필요한 경우 나쁜 말을 제거하십시오.

min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments

자세한 내용은 모듈 문서를 참조하십시오. 대형 오디오 파일을 정렬하기 위해 RNN 기반 인코더 (예 : BLSTMP)가있는 모델을 사용하는 것이 좋습니다. 더 긴 오디오 데이터에서 메모리 소비가 높은 변압기 모델을 사용하는 대신. 오디오의 샘플 속도는 교육에 사용 된 데이터의 샘플 속도와 일치해야합니다. 필요한 경우 sox 로 조정하십시오.

또한이 도구를 사용하여 text 파일의 발언 대신 토큰 목록을 준비하면 토큰 수준 세그먼테이션 정보를 제공 할 수 있습니다. #4278 (댓글)의 토론을 참조하십시오.

인용

 @inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
    title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
    author = "Inaguma, Hirofumi  and
      Kiyono, Shun  and
      Duh, Kevin  and
      Karita, Shigeki  and
      Yalta, Nelson  and
      Hayashi, Tomoki  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
    pages = "302--311",
}
@article{hayashi2021espnet2,
  title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2110.07840},
  year={2021}
}
@inproceedings{li2020espnet,
  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
  author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
  booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  pages={785--792},
  year={2021},
  organization={IEEE},
}
@inproceedings{arora2021espnet,
  title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
  author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
  booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7167--7171},
  year={2022},
  organization={IEEE}
}
@inproceedings{shi2022muskits,
  author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
  title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
  year={2022},
  booktitle={Proceedings of Interspeech},
  pages={4277-4281},
  url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
  author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
  title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
  year=2022,
  booktitle={Proc. Interspeech 2022},
  pages={5458--5462},
}
@inproceedings{gao2023euro,
  title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
  author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}
@inproceedings{peng2023reproducing,
  title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
  author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@inproceedings{sharma2023espnet,
  title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
  author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@article{jung2024espnet,
  title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
  author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
  journal={Proc. Interspeech 2024},
  year={2024}
}
@inproceedings{yan-etal-2023-espnet,
    title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
    author = "Yan, Brian  and
      Shi, Jiatong  and
      Tang, Yun  and
      Inaguma, Hirofumi  and
      Peng, Yifan  and
      Dalmia, Siddharth  and
      Pol{'a}k, Peter  and
      Fernandes, Patrick  and
      Berrebbi, Dan  and
      Hayashi, Tomoki  and
      Zhang, Xiaohui  and
      Ni, Zhaoheng  and
      Hira, Moto  and
      Maiti, Soumi  and
      Pino, Juan  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    year = "2023",
    publisher = "Association for Computational Linguistics",
    pages = "400--411",
}

확장하다

추가 정보

버전 version 202409
유형 기타 소스코드
업데이트 시간 2025-02-02
크기 23.14MB
출처 Github