espnet -Download - espnet -Quellcode herunterladen

espnet

Anderer Quellcode

version 202409

Herunterladen

Ubuntu/Python3.11/Pip Ubuntu/Python3.10/conda Debian11/Python3.10/Conda Windows/Python3.10/Pip macOS/python3.10/pip macOS/python3.10/conda

Docs | Beispiel | Beispiel (ESPNET2) | Docker | Notizbuch

ESPNET ist ein End-to-End-Sprachverarbeitungsinstrument, das die End-to-End-Spracherkennung, Text-zu-Sprach, Sprachübersetzung, Sprachverbesserung, Sprecherdurch Diatrisierung, gesprochenes Sprachverständnis usw. abdeckt. ESPNET verwendet Pytorch als Deep -Learning -Engine und folgt auch Datenverarbeitung, Feature -Extraktion/-format und Rezepten der Kaldi -Stil, um ein vollständiges Setup für verschiedene Sprachverarbeitungsexperimente bereitzustellen.

Tutorial -Serie

2019 Tutorial bei Interspeech
- Material
2021 Tutorial an der CMU
- Online -Video
- Material
2022 Tutorial an der CMU
- Verwendung von ESPNET (ASR als Beispiel)
  - Online -Video
  - Material
- Fügen Sie ESPNET neue Modelle/Aufgaben hinzu
  - Online -Video
  - Material

Schlüsselmerkmale

Kaldi-Stil komplettes Rezept

Unterstützen Sie die Anzahl der ASR Rezepte (WSJ, Switchboard, Chime-4/5, Librispeech, Ted, CSJ, AMI, HKUST, Voxforge, Reverb, Gigaspeech usw.)
Unterstützen Sie die Anzahl der TTS -Rezepte auf ähnliche Weise wie das ASR-Rezept (Ljspeech, Libritts, M-Sailabs usw.)
Unterstützen Sie die Anzahl der ST Rezepte (Fisher-Callhome Spanisch, libr-trans, IWSLT'18, How2, Must-C, Mboshi-French usw.)
Unterstützungsnummern MT -Rezepte (IWSLT'14, IWSLT'16, die obigen ST -Rezepte usw.)
Unterstützungsnummern der SLU Rezepte (Catslu-Maps, FSC, Grabo, Iemocap, Jdcinal, Snips, Slurp, SWBD-DA usw.)
Unterstützungsnummern der SE/SS Rezepte (DNS-IS2020, Librimix, SMS-WSJ, VCTK-Noisyreverb, Wham!, WHAMR!, WSJ-2MIX usw.)
Support Voice Conversion Rezept (VCC2020 Baseline)
Unterstützung der Lautsprecherdurchfallrezept (mini_librispeech, librimix)
Unterstützen Sie das Rezept für Gesangs -Sprachsynthese (OFUTON_P_UTAGOE_DB, OPENCPOP, M4SINGER usw.)

ASR: Automatische Spracherkennung

Hochmoderne Leistung in mehreren ASR-Benchmarks (vergleichbar/überlegen mit Hybrid-DNN/HMM und CTC)
Hybrid CTC/aufmerksamkeitsbasiertes End-to-End-ASR
- Schnelles/genaues Training mit CTC/Achtungs -Multitask -Training
- CTC/Aufmerksamkeits gemeinsame Dekodierung zur Steigerung der monotonischen Ausrichtungsdekodierung
- Encoder: VGG-ähnliches CNN + Birnn (LSTM/Gru), Unterabtastung Birnn (LSTM/Gru), Transformator, Konformer, Zweigforscher oder E-Branchformer
- Decoder: RNN (LSTM/Gru), Transformator oder S4
Achtung: Flash-Aufmerksamkeit, Punktprodukt, ortsbewusste Aufmerksamkeit, Varianten von Multi-Head
Integrieren
Batch -GPU -Dekodierung
Datenvergrößerung
Wandlerbasis von End-to-End-ASR
- Architektur:
  - Benutzerdefinierte Encoder unterstützt RNNs, Konformer, Zweigforscher (W / Varianten), 1D CONV / TDNN.
  - Decodierer mit Parametern, die über Blöcke geteilt werden, die RNN unterstützen, staatenlos mit 1d conv, mega und rwkv.
  - Precoder: VGG2L oder conv2d verfügbar.
- Suchalgorithmen:
  - Gierige Suche auf eine Emission durch Zeitschritt.
  - Standard -Strahl -Suchalgorithmus [Graves, 2012] ohne Präfix -Suche.
  - Synchron-Decodierung aus Alignment-Länge [Saon et al., 2020].
  - Zeitsynchrone Decodierung [Saon et al., 2020].
  - N-Schritt-beschränkte Strahlsuche modifiziert aus [Kim et al., 2020].
  - Modifizierte adaptive Expansionssuche basierend auf [Kim et al., 2021] und NSC.
- Merkmale:
  - Einheitliche Schnittstelle für Offline- und Streaming -Spracherkennung.
  - Multi-Task-Lernen mit verschiedenen Hilfsverlusten:
    - Encoder: CTC, Auxiliary Transducer und symmetrische KL -Divergenz.
    - Decoder: Cross-Entropie mit Etikettglättung.
  - Übertragungslernen mit einem akustischen Modell und/oder einem Sprachmodell.
  - Training mit Fastemit -Regularisierungsmethode [Yu et al., 2021].
In der Tutorial -Seite finden Sie eine vollständige Dokumentation.
CTC -Segmentierung
Nicht autoregressives Modell basierend auf Mask-CTC
ASR -Beispiele für die Unterstützung des gefährdeten Sprachdokuments (finden Sie in EGS/puebla_nahuatl und EGS/yoloxochitl_mixtc für Details))
WAV2VEC2.0 Vorgebildeter Modell als Encoder, importiert von Fairseq.
Selbstbewertete Lerndarstellungen als Funktionen, die Upstream-Modelle in S3PRL in Frontend verwenden.
- Setzen Sie frontend auf s3prl
- Wählen Sie ein beliebtes Modell aus, indem Sie den frontend_conf auf den entsprechenden Namen einstellen.
Transferlernen:
- Einfache Verwendung und Übertragung von Modellen, die zuvor von Ihrer Gruppe oder Modellen von ESPNET -Umarmungs -Face -Repository trainiert wurden.
- Dokumentation und Spielzeugbeispiel, die auf Colab läuft.
Streaming -Transformator/Konformer ASR mit blockweise synchroner Strahlsuche.
Eingeschränkte Selbstbeziehung auf der Grundlage von Longformer als Encoder für lange Sequenzen
OpenAI Whisper-Modell, robustes ASR basierend auf großem Maßstab, schwach überprüftes Multitasking-Lernen

Demonstration

Echtzeit-ASR-Demo mit ESPNET2
Gradio Web Demo über umarmende Gesichtsräume. Schauen Sie sich die Webdemo an
Streaming -Transformator ASR Lokale Demo mit ESPNET2.

TTS: Text-to-Speech

Architektur
- Tacotron2
- Transformator-TTs
- Fastspeech
- Fastspeech2
- Konformer Fastspeech & Fastspeech2
- Vits
- Jets
Multi-Sprecher- und Multisprachler-Erweiterung
- Vorausgebildeter Lautsprecher Einbettung (z. B. X-Vektor)
- Lautsprecher -ID -Einbettung
- Sprach -ID -Einbettung
- Global Style Token (GST) Einbettung
- Mischung der oben genannten Einbettungen
End-to-End-Training
- End-to-End-Text-zu-WAV-Modell (z. B. Vits, Jets usw.)
- Joint -Training von Text2Mel und Vocoder
Verschiedene Sprachunterstützung
- En / jp / zn / de / ru / und mehr ...
Integration mit neuronalen Vokördern
- Paralleler Wavegan
- Melgan
- Multi-Band Melgan
- HiFigan
- Stylemelgan
- Mischung der oben genannten Modelle

Demonstration

Echtzeit-TTS-Demo mit ESPNET2
Integriert in die Umarmung von Gesichtsräumen mit Gradio. Siehe Demo:

Um den neuronalen Vokoder zu trainieren, überprüfen Sie bitte die folgenden Repositorys:

Kan-Bayashi/Parallelwavegan
R9Y9/Wavenet_vocoder

SE: Sprachverbesserung (und Trennung)

Sprachverbesserung mit einer Lautsprecher
Sprachtrennung mit mehreren Lautsprechern
Einheitliche Encoder-Separator-Decoder-Struktur für Zeitdomänen- und Frequenzdomänenmodelle
- Encoder/Decoder: STFT/ISTFT, Faltung/transponierte Konvolution
- Separatoren: Blstm, Transformator, Konformer, Tasnet, DPRNN, Skim, Svoice, DC-CRN, DCCRN, Deep Clustering, Deep Attractor Network, Fasnet, Ifasnet, Neural Beamformers usw.
Flexible ASR -Integration: Arbeit als individuelle Aufgabe oder als ASR -Frontend
Einfach vorgebrachte Modelle aus Asteroiden importieren
- Sowohl die vorgebildeten Modelle von Asteroiden als auch die spezifische Konfiguration werden unterstützt.

Demonstration

Interaktive SE -Demo mit ESPNET2
Streaming SE -Demo mit ESPNET2

ST: Sprachübersetzung & MT: maschinelle Übersetzung

Hochmoderne Leistung in mehreren ST-Benchmarks (vergleichbar/überlegen mit kaskadiertem ASR und MT)
Transformator-basierte End-to-End-St. (neu!)
Transformator-basiertes End-to-End-MT (neu!)

VC: Sprachumwandlung

Parallele VC auf Transformator und Tacotron2 basiert unter Verwendung des MEL-Spektrogramms
End-to-End-VC basierend auf kaskadierten ASR+TTs (Basissystem für Sprachkonvertierung Challenge 2020!)

SLU: Verständnis der gesprochenen Sprache

Architektur
- Transformator-basiertes Encoder
- Konformer-basierter Encoder
- Zweigforscherbasierter Encoder
- E-Branchformer-basiertes Encoder
- RNN -basierter Decoder
- Transformator-basierter Decoder
Unterstützen Sie Multitasking mit ASR
- Vorhersage sowohl die Absicht als auch das ASR -Transkript
Unterstützen Sie Multitasking mit NLU
- Beratungs -Encoder -basiertes 2 -Pass -Modell
Unterstützung unter Verwendung von vorgeborenen ASR-Modellen
- Hubert
- WAV2VEC2
- VQ-APC
- Tera und mehr ...
Unterstützung unter Verwendung von vorgeborenen NLP-Modellen
- Bert
- Mpnet und mehr ...
Verschiedene Sprachunterstützung
- En / jp / zn / nl / und mehr ...
Unterstützt die Verwendung von Kontext aus früheren Äußerungen
Unterstützt die Verwendung anderer Aufgaben wie SE auf Pipeline
Unterstützt zwei Pass -SLU, die die Demonstration von Audio- und ASR -Transkription kombinieren
Durchführen von läuerlichem Sprachverständnis unter Verwendung eines Sprachverbesserungsmodells, gefolgt von einem Modell für gesprochenes Sprachverständnis.
Durchführen von zwei-firmengesprochenem Sprachverständnis, bei dem das zweite Passmodell sowohl um akustische als auch um semantische Informationen kümmert.
Integriert in die Umarmung von Gesichtsräumen mit Gradio. Siehe SLU -Demo zu mehreren Sprachen:

Summe: Sprachübersicht

End-to-End-Sprachübersichtsrezept für Lehrvideos mit eingeschränkter Selbstbeziehung [Sharma et al., 2022]

SVS: Singensynthese singen

Framework verschmelzen von Moschus
Architektur
- RNN-basierte nicht-autoregressives Modell
- Xiaoice
- Tacotron-sing
- Diffsinger (in Arbeit)
- Visen
- Visen 2 (seine Variationen mit verschiedenen Vocoder-Architektur)
Unterstützen Sie mehrsprachige und mehrsprachige Gesangssynthese
- Lautsprecher -ID -Einbettung
- Sprach -ID -Einbettung
Verschiedene Sprachunterstützung
- JP / EN / Kr / Zh
Enge Integration mit neuronalen Vokördern (das gleiche wie TTS)

SSL: Selbstbewertetes Lernen

Unterstützen Sie Hubert Pre-Training:
- Beispielrezept: EGS2/Librispeech/SSL1

UASR: unbeaufsichtigtes ASR (Euro: ESPNET unbeaufsichtigte Anerkennung - Open -Source)

Architektur
- WAV2VEC-U (mit unterschiedlichen selbstbewerteten Modellen)
- WAV2VEC-U 2.0 (in Bearbeitung)
Unterstützen Sie PräfixbeamSearch und K2-basierte WFST-Dekodierung

S2T: Sprach-zu-Text mit mehrsprachigen Multitask-Modellen im Flüsterstil

Reproduziert das Training im Flüsterstil von Grund auf mit öffentlichen Daten: OWSM
Unterstützt mehrere Aufgaben in einem einzelnen Modell
- Mehrsprachige Spracherkennung
- Jegliche Sprachübersetzung
- Sprachidentifizierung
- Timestempelvorhersage auf Äußerungsebene (Segmentierung)

DNN -Framework

Flexible Netzwerkarchitektur dank Chainer und Pytorch
Flexible Front-End-Verarbeitung dank Kaldiio und HDF5-Unterstützung
Tensorboard-basierte Überwachung
Tiefspeed-basiertes großflächiges Training

ESPNET2

Siehe ESPNET2.

Unabhängig von Kaldi/Chainer, im Gegensatz zu ESPNET1
Feature-Extraktion und Textverarbeitung vor dem Training beim Training
Unterstützung von DistributedDataparallel und Daraparallel beides
Unterstützung mehrerer Knoten Training und integriert in Slurm oder MPI integriert
Unterstützung von Sharded -Schulungen von Fairscale
Ein Vorlagenrezept, das auf alle Korpora angewendet werden kann
Möglich, jede Größe von Korpus ohne CPU -Speicherfehler zu trainieren
ESPNET -Modellzoo
In integriert in Wandb

Installation

Wenn Sie beabsichtigen, vollständige Experimente einschließlich DNN -Training durchzuführen, siehe Installation.

Wenn Sie nur das Python -Modul benötigen:

 # We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"

Wenn Sie ESPNET1 verwenden, installieren Sie bitte Chainer und Cupy.

pip install chainer==6.0.0 cupy==6.0.0    # [Option]

Möglicherweise müssen Sie je nach jeder Aufgabe einige Pakete installieren. Wir haben verschiedene Installationsskripte bei Tools/Installateuren vorbereitet.

(ESPNET2) Führen Sie nach der Installation wandb login aus und setzen Sie --use_wandb true um die Tracking -Läufe mit W & B zu aktivieren.

Docker -Container

Gehen Sie zu Docker/ und befolgen Sie die Anweisungen.

Beitrag

Vielen Dank, dass Sie sich die Zeit für ESPNET genommen haben! Alle Beiträge zu ESPNET sind willkommen und stellen Sie gerne Fragen oder Anfragen an Probleme. Wenn es sich um Ihren ersten ESPNET -Beitrag handelt, befolgen Sie bitte den Beitragshandbuch.

ASR -Ergebnisse

expandieren

Wir listen die Charakterfehlerrate (CER) und die Wortfehlerrate (WOR) von wichtigen ASR -Aufgaben auf.

Aufgabe	Cer (%)	Wer (%)	Vorausgebildeter Modell
Aishell Dev/Test	4.6/5.1	N / A	Link
ESPNET2 Aishell Dev/Test	4.1/4.4	N / A	Link
Common Voice Dev/Test	1.7/1.8	2.2/2.3	Link
CSJ Eval1/Eval2/Eval3	5.7/3.8/4.2	N / A	Link
ESPNET2 CSJ Eval1/Eval2/Eval3	4,5/3.3/3.6	N / A	Link
ESPNET2 Gigaspeech Dev/Test	N / A	10.6/10.5	Link
Hkust Dev	23.5	N / A	Link
ESPNET2 HKUST DEV	21.2	N / A	Link
Librispeech dev_clean/dev_other/test_clean/test_other	N / A	1.9/4,9/2.1/4,9	Link
ESPNET2 Librispeech dev_clean/dev_other/test_clean/test_other	0,6/1,5/0,6/1,4	1,7/3,4/1.8/3.6	Link
STITTBART (EVAL2000) CALLHM/SWBD	N / A	14.0/6.8	Link
ESPNET2 -STITTBART (EVAL2000) CALLHM/SWBD	N / A	13.4/7.3	Link
TEDLIUM2 DEV/Test	N / A	8.6/7.2	Link
ESPNET2 TEDLIUM2 DEV/Test	N / A	7.3/7.1	Link
TEDLIUM3 DEV/Test	N / A	9.6/7.6	Link
WSJ Dev93/Eval92	3.2/2.1	7.0/4.7	N / A
ESPNET2 WSJ Dev93/Eval92	1,1/0,8	2,8/1,8	Link

Beachten Sie, dass die Leistung der CSJ-, HKUST- und Librispeech -Aufgaben durch die Verwendung des breiten Netzwerks (#Units = 1024) und große Subword -Einheiten bei Bedarf von RWTH erheblich verbessert wurde.

Wenn Sie die Ergebnisse der anderen Rezepte überprüfen möchten, überprüfen Sie egs/<name_of_recipe>/asr1/RESULTS.md .

ASR -Demo

expandieren

Sie können die Sprache in einer WAV-Datei mithilfe von vorgeborenen Modellen erkennen. Gehen Sie zu einem Rezeptverzeichnis und führen Sie utils/recog_wav.sh wie folgt aus:

 # go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav

wobei example.wav eine WAV -Datei ist, die erkannt werden muss. Die Stichprobenrate muss mit der von im Training verwendeten Daten übereinstimmen.

Verfügbare vorgebrachte Modelle im Demo-Skript sind unten aufgeführt.

Modell	Notizen
TEDLIUM2.RNN.V1	Streaming-Dekodierung basierend auf CTC-basierten VAD
Tedlium2.Rnn.v2	Streaming-Dekodierung basierend auf CTC-basiertem VAD (Batch-Dekodierung)
TEDLIUM2.TRANSFORMER.V1	Joint-CTC-Aufmerksamkeitstransformator auf Tedlium 2 trainiert
Tedlium3.Transformer.v1	Joint-CTC-Aufmerksamkeitstransformator auf Tedlium 3 trainiert
librispeech.transformer.v1	Auf librispeech trainierter Joint-CTC-Aufmerksamkeitstransformator
CommonVoice.Transformer.v1	Auf CommonVoice ausgebildete Joint-CTC-Aufmerksamkeitstransformator
csj.transformer.v1	Auf CSJ ausgebildete Joint-CTC-Aufmerksamkeitstransformator
csj.rnn.v1	Joint-CTC Achtung VGGBLSTM trainiert auf CSJ

SE Ergebnisse

expandieren

Wir listen Ergebnisse aus drei verschiedenen Modellen auf WSJ0-2MIX auf, einem der am weitesten verbreiteten Benchmark-Datensatz für die Sprachtrennung.

Modell	Stoi	Sar	SDR	HERR
TF -Maskierung	0,89	11.40	10.24	18.04
Conv-tasnet	0,95	16.62	15.94	25.90
DPRNN-TASNET	0,96	18.82	18.29	28.92

Se Demos

expandieren

Sie können die interaktive Demo mit Google Colab ausprobieren. Bitte klicken Sie auf die folgende Schaltfläche, um Zugriff auf die Demos zu erhalten.

Es basiert auf ESPNET2. Vorausgebildete Modelle sind sowohl für Sprachverbesserung als auch für Sprachtrennaufgaben verfügbar.

Sprachtrennstreaming -Demos:

ST Ergebnisse

expandieren

Wir listen 4-Gramm Bleu der wichtigsten ST-Aufgaben auf.

End-to-End-System

Aufgabe	Bleu	Vorausgebildeter Modell
Fisher-Callhome Spanisch Fisher_test (es-> en)	51.03	Link
Fisher-Callhome Spanier Callhome_evltest (es-> en)	20.44	Link
Libri-Trans-Test (en-> fr)	16.70	Link
How2 Dev5 (en-> pt)	45,68	Link
MUSS-C TST-Common (en-> de)	22.91	Link
Mboshi-French Dev (fr-> mboshi)	6.18	N / A

Kaskadiertes System

Aufgabe	Bleu	Vorausgebildeter Modell
Fisher-Callhome Spanisch Fisher_test (es-> en)	42.16	N / A
Fisher-Callhome Spanier Callhome_evltest (es-> en)	19.82	N / A
Libri-Trans-Test (en-> fr)	16.96	N / A
How2 Dev5 (en-> pt)	44,90	N / A
MUSS-C TST-Common (en-> de)	23.65	N / A

Wenn Sie die Ergebnisse der anderen Rezepte überprüfen möchten, überprüfen Sie egs/<name_of_recipe>/st1/RESULTS.md .

St. Demo

expandieren

( Neu! ) Wir haben in Google Colab eine neue Echtzeit-E2E-ST + TTS-Demonstration durchgeführt. Bitte greifen Sie über die folgende Schaltfläche auf das Notizbuch zu und genießen Sie die Echtzeit-Speech-zu-Speech-Übersetzung!

Sie können Sprache in einer WAV-Datei mithilfe vorhandener Modelle übersetzen. Gehen Sie zu einem Rezeptverzeichnis und führen Sie utils/translate_wav.sh wie folgt aus:

 # Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav

wobei test.wav eine WAV -Datei ist, die übersetzt werden muss. Die Stichprobenrate muss mit der von im Training verwendeten Daten übereinstimmen.

Verfügbare vorgebrachte Modelle im Demo-Skript sind wie unten aufgeführt.

Modell	Notizen
fisher_callhome_spanish.transformer.v1	Transformator-ster

MT -Ergebnisse

expandieren

Aufgabe	Bleu	Vorausgebildeter Modell
Fisher-Callhome Spanisch Fisher_test (es-> en)	61.45	Link
Fisher-Callhome Spanier Callhome_evltest (es-> en)	29,86	Link
Libri-Trans-Test (en-> fr)	18.09	Link
How2 Dev5 (en-> pt)	58.61	Link
MUSS-C TST-Common (en-> de)	27.63	Link
IWSLT'14 Test2014 (en-> de)	24.70	Link
IWSLT'14 Test2014 (de-> en)	29.22	Link
IWSLT'14 Test2014 (de-> en)	32.2	Link
IWSLT'16 Test2014 (en-> de)	24.05	Link
IWSLT'16 Test2014 (de-> en)	29.13	Link

TTS -Ergebnisse

ESPNET2

Sie können die erzeugten Beispiele in der folgenden URL anhören.

ESPNET2 -TTs erzeugte Proben

Beachten Sie, dass wir in der Generation Griffin-lim ( wav/ ) und Parallel Wavegan ( wav_pwg/ ) verwenden.

Sie können vorgebildete Modelle über espnet_model_zoo herunterladen.

ESPNET -Modellzoo
Vorausgebildete Modellliste

Sie können vorgebildete Vocoder über kan-bayashi/ParallelWaveGAN herunterladen.

Kan-Bayashi/Parallelwavegan
Vorausgebildete Vocoder-Liste

ESPNET1

HINWEIS: Wir bewegen uns zur ESPNET2-basierten Entwicklung für TTS. Bitte überprüfen Sie die neuesten Ergebnisse in den obigen ESPNET2 -Ergebnissen.

Sie können unsere Muster in der Demo HP ESPNET-TTS-Sample anhören. Hier listen wir einige bemerkenswerte auf:

Single English Speaker Tacotron2
Single japanischer Sprecher Tacotron2
Einzelner anderer Sprachredner Tacotron2
Multi -English Speaker Tacotron2
Single English Speaker Transformator
Single English Speaker Fastspeech
Multi English Speaker Transformator
Einzelner italienischer Sprecher Fastspeech
Einzelner Mandarin -Lautsprechertransformator
Einzelner Mandarin -Sprecher Fastspeech
Multi Japaner Sprecher -Transformator
Single English Speaker -Modelle mit parallelem Wavegan
Destillationsbasierte Fastspeech-Speaker-Speaker-Speaker-Sprecher

Sie können alle vorgeborenen Modelle und generierten Muster herunterladen:

Alle vorgeborenen E2E-TTS-Modelle
Alle erzeugten Proben

Beachten Sie, dass wir in den erzeugten Proben die folgenden Vocoder verwenden: Griffin-lim ( GL ), Wellenet-Vokoder ( Wellenet ), Parallelwellegan ( Parallelwavegan ) und Melgan ( Melgan ). Die neuronalen Vocoder basieren auf den folgenden Repositorys.

Kan-Bayashi / Parallelwavegan: Parallel Wavegan / Melgan / Multi-Band-Melgan
R9Y9/Wavenet_vocoder: 16 -Bit -Mischung aus Logistik -Wavenet -Vokoder
Kan-Bayashi/Pytorchwavenetvocoder: 8-Bit-Softmax-Wavenet-Vokoder mit der Rauschformung

Wenn Sie Ihren eigenen neuronalen Vocoder bauen möchten, überprüfen Sie bitte die oben genannten Repositories. Kan-Bayashi/Parallelwavegan bietet das Handbuch, wie die Funktionen des ESPNET-TTS-Modells mit neuronalen Vocoder dekodieren. Bitte überprüfen Sie es.

Hier listen wir alle vorgeborenen neuronalen Vocoder auf. Bitte laden Sie die Generation hochwertiger Rede herunter und genießen Sie sie!

Modelllink	Lang	FS [Hz]	Mel Range [Hz]	FFT / Shift / Win [PT]	Modelltyp
ljspeech.wavenet.softmax.ns.v1	En	22.05k	Keiner	1024 /256 / keine	Softmax -Wellenet
ljspeech.wavenet.mol.v1	En	22.05k	Keiner	1024 /256 / keine	Mol -Wavenet
ljspeech.parallel_wavegan.v1	En	22.05k	Keiner	1024 /256 / keine	Paralleler Wavegan
ljspeech.wavenet.mol.v2	En	22.05k	80-7600	1024 /256 / keine	Mol -Wavenet
ljspeech.parallel_wavegan.v2	En	22.05k	80-7600	1024 /256 / keine	Paralleler Wavegan
ljspeech.Melgan.v1	En	22.05k	80-7600	1024 /256 / keine	Melgan
ljspeech.Melgan.v3	En	22.05k	80-7600	1024 /256 / keine	Melgan
libritts.wavenet.mol.v1	En	24k	Keiner	1024 /256 / keine	Mol -Wavenet
jsut.wavenet.mol.v1	JP	24k	80-7600	2048 /300 /1200	Mol -Wavenet
JSUT.PARALLEL_WAVEGAN.V1	JP	24k	80-7600	2048 /300 /1200	Paralleler Wavegan
csmsc.wavenet.mol.v1	Zh	24k	80-7600	2048 /300 /1200	Mol -Wavenet
csmsc.parallel_wavegan.v1	Zh	24k	80-7600	2048 /300 /1200	Paralleler Wavegan

Wenn Sie die oben ausgebildeten Vocoder verwenden möchten, passen Sie bitte genau die Funktionseinstellung mit ihnen an.

TTS -Demo

ESPNET2

Sie können die Echtzeit-Demo in Google Colab ausprobieren. Bitte greifen Sie über die folgende Schaltfläche auf das Notizbuch zu und genießen Sie die Echtzeit-Synthese!

Echtzeit-TTS-Demo mit ESPNET2

In der Demo sind Englisch-, Japanisch- und Mandarin -Modelle erhältlich.

ESPNET1

HINWEIS: Wir bewegen uns zur ESPNET2-basierten Entwicklung für TTS. Bitte überprüfen Sie die neueste Demo in der obigen ESPNET2 -Demo.

Sie können die Echtzeit-Demo in Google Colab ausprobieren. Bitte greifen Sie über die folgende Schaltfläche auf das Notizbuch zu und genießen Sie die Echtzeit-Synthese.

Echtzeit-TTS-Demo mit ESPNET1

Wir bieten auch ein Shell -Skript zur Durchführung von Synthese. Gehen Sie zu einem Rezeptverzeichnis und führen Sie utils/synth_wav.sh wie folgt aus:

 # Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt

# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt

Sie können das vorgebildete Modell wie folgt ändern:

synth_wav.sh --models ljspeech.fastspeech.v1 example.txt

Die Wellenform-Synthese wird mit dem Griffin-Lim-Algorithmus und dem neuralen Vokodierer (Wavenet und Parallelwavegan) durchgeführt. Sie können das vorgebildete Vocoder-Modell wie folgt ändern:

synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt

Der Wavenet-Vokoder bietet sehr hochwertige Sprache, aber es braucht Zeit, um zu generieren.

Weitere Details oder verfügbare Modelle finden Sie über --help .

synth_wav.sh --help

VC -Ergebnisse

expandieren

Transformator und Tacotron2-basierter VC

Sie können einige Muster auf der Demo -Webseite hören.

Kaskade ASR+TTS als eines der Basissysteme von VCC2020

Die Voice Conversion Challenge 2020 (VCC2020) nutzt ESPNET, um ein von End-to-End-basierter Basissystem zu erstellen. In VCC2020 ist das Ziel intra/Kreuzual nicht parallel VC. Hier können Sie konvertierte Muster des Cascade ASR+TTS -Baseline -Systems herunterladen.

SLU -Ergebnisse

expandieren

Wir listen die Leistung bei verschiedenen SLU -Aufgaben und -Datensätzen mit der im ursprünglichen Datensatzpapier angegebenen Metrik auf

Aufgabe	Datensatz	Metrisch	Ergebnis	Vorausgebildeter Modell
Absichtsklassifizierung	SCHLÜRFEN	Acc	86,3	Link
Absichtsklassifizierung	Fsc	Acc	99,6	Link
Absichtsklassifizierung	FSC unsichtbarer Lautsprecher -Set	Acc	98.6	Link
Absichtsklassifizierung	FSC unsichtbarer Äußerung Set	Acc	86,4	Link
Absichtsklassifizierung	FSC Challenge Speaker Set	Acc	97,5	Link
Absichtsklassifizierung	FSC Challenge Äußerlichkeit Set	Acc	78,5	Link
Absichtsklassifizierung	Schnitt	F1	91.7	Link
Absichtsklassifizierung	Grabo (NL)	Acc	97,2	Link
Absichtsklassifizierung	Cat SLU -Karte (Zn)	Acc	78,9	Link
Absichtsklassifizierung	Google -Sprachbefehle	Acc	98.4	Link
Schlitzfüllung	SCHLÜRFEN	SLU-F1	71,9	Link
Klassifizierung des Dialoggesetzes	Telefonzentrale	Acc	67,5	Link
Klassifizierung des Dialoggesetzes	Jdcinal (JP)	Acc	67,4	Link
Emotionserkennung	Iemocap	Acc	69.4	Link
Emotionserkennung	swbd_sentiment	Makro F1	61.4	Link
Emotionserkennung	SLUE_VOXCELEB	Makro F1	44.0	Link

Wenn Sie die Ergebnisse der anderen Rezepte überprüfen möchten, überprüfen Sie bitte egs2/<name_of_recipe>/asr1/RESULTS.md .

CTC -Segmentierung Demo

ESPNET1

Die CTC -Segmentierung bestimmt Äußerungssegmente in Audio -Dateien. Ausgerichtete Äußerungssegmente bilden die Beschriftungen von Sprachdatensätzen.

Als Demo richten wir das Start und Ende der Äußerungen in der Audiodatei ctc_align_test.wav unter Verwendung der Beispielsskript utils/asr_align_wav.sh aus. Richten Sie zur Vorbereitung ein Datenverzeichnis ein:

 cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml

cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF

Hier ist utt_text die Datei, die die Liste der Äußerungen enthält. Wählen Sie ein vorgebildetes ASR-Modell, das eine CTC-Schicht enthält, um Äußerungssegmente zu finden:

 # pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf

../../../utils/asr_align_wav.sh 
    --models ${model} 
    --align_dir ${align_dir} 
    --align_config ${align_dir} /align.yaml 
    ${wav} ${align_dir} /utt_text

Segmente werden an aligned_segments als Liste von Datei-/Äußerungsnamen, Äußerungsstart- und Endzeiten in Sekunden und als Vertrauensbewertung geschrieben. Der Vertrauenswert ist eine Wahrscheinlichkeit im Protokollraum, die angibt, wie gut die Äußerung ausgerichtet war. Bei Bedarf schlechte Äußerungen entfernen:

min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments

Das Demo-Skript- utils/ctc_align_wav.sh verwendet ein bereits vorgebildetes ASR-Modell (siehe oben die Liste oben für weitere Modelle). Es wird empfohlen, Modelle mit RNN-basierten Encodern (wie Blstmp) zum Ausrichten großer Audiodateien zu verwenden. Anstatt Transformatormodelle mit einem hohen Speicherverbrauch für längere Audiodaten zu verwenden. Die Stichprobenrate des Audio muss mit der der im Training verwendeten Daten übereinstimmen. Bei Bedarf mit sox einstellen. Ein vollständiges Rezept in egs/tedlium2/align1/ .

ESPNET2

Die CTC -Segmentierung bestimmt Äußerungssegmente in Audio -Dateien. Ausgerichtete Äußerungssegmente bilden die Beschriftungen von Sprachdatensätzen.

Als Demo richten wir den Start und Ende der Äußerungen in der Audiodatei ctc_align_test.wav aus. Dies kann entweder direkt aus der Befehlszeile von Python oder mit dem Skript espnet2/bin/asr_align.py erfolgen.

Von der Python -Befehlszeilenschnittstelle:

 # load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT

Die Ausrichtung funktioniert auch mit Fragmenten des Textes. Setzen Sie hierzu die Option gratis_blank , mit der das Überspringen von nicht verwandten Audioabschnitten ohne Strafe ermöglicht wird. Es ist auch möglich, die Äußerungsnamen zu Beginn jeder Zeile wegzulassen, indem Sie kaldi_style_text auf false einstellen.

 aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT

Das Skript espnet2/bin/asr_align.py verwendet eine ähnliche Schnittstelle. Äußerungen ausrichten:

 # ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT

Die Ausgabe des Skripts kann durch Hinzufügen des Arguments --output segments in eine segments umgeleitet werden. Jede Zeile enthält den Datei-/Äußerungsnamen, die Äußerungsstart- und Endzeit in Sekunden und eine Vertrauensbewertung. Optional auch der Äußerungstext. Der Vertrauenswert ist eine Wahrscheinlichkeit im Protokollraum, die angibt, wie gut die Äußerung ausgerichtet war. Bei Bedarf schlechte Äußerungen entfernen:

min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments

Weitere Informationen finden Sie in der Moduldokumentation. Es wird empfohlen, Modelle mit RNN-basierten Encodern (wie Blstmp) zum Ausrichten großer Audiodateien zu verwenden. Anstatt Transformatormodelle mit einem hohen Speicherverbrauch für längere Audiodaten zu verwenden. Die Stichprobenrate des Audio muss mit der der im Training verwendeten Daten übereinstimmen. Bei Bedarf mit sox einstellen.

Außerdem können wir dieses Tool verwenden, um Segmentierungsinformationen auf Tokenebene bereitzustellen, wenn wir eine Liste von Token anstelle der von Äußerungen in der text erstellen. Siehe die Diskussion in #4278 (Kommentar).

Zitate

 @inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
    title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
    author = "Inaguma, Hirofumi  and
      Kiyono, Shun  and
      Duh, Kevin  and
      Karita, Shigeki  and
      Yalta, Nelson  and
      Hayashi, Tomoki  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
    pages = "302--311",
}
@article{hayashi2021espnet2,
  title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2110.07840},
  year={2021}
}
@inproceedings{li2020espnet,
  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
  author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
  booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  pages={785--792},
  year={2021},
  organization={IEEE},
}
@inproceedings{arora2021espnet,
  title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
  author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
  booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7167--7171},
  year={2022},
  organization={IEEE}
}
@inproceedings{shi2022muskits,
  author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
  title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
  year={2022},
  booktitle={Proceedings of Interspeech},
  pages={4277-4281},
  url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
  author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
  title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
  year=2022,
  booktitle={Proc. Interspeech 2022},
  pages={5458--5462},
}
@inproceedings{gao2023euro,
  title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
  author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}
@inproceedings{peng2023reproducing,
  title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
  author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@inproceedings{sharma2023espnet,
  title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
  author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@article{jung2024espnet,
  title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
  author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
  journal={Proc. Interspeech 2024},
  year={2024}
}
@inproceedings{yan-etal-2023-espnet,
    title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
    author = "Yan, Brian  and
      Shi, Jiatong  and
      Tang, Yun  and
      Inaguma, Hirofumi  and
      Peng, Yifan  and
      Dalmia, Siddharth  and
      Pol{'a}k, Peter  and
      Fernandes, Patrick  and
      Berrebbi, Dan  and
      Hayashi, Tomoki  and
      Zhang, Xiaohui  and
      Ni, Zhaoheng  and
      Hira, Moto  and
      Maiti, Soumi  and
      Pino, Juan  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    year = "2023",
    publisher = "Association for Computational Linguistics",
    pages = "400--411",
}

Expandieren

Zusätzliche Informationen

Version version 202409
Typ Anderer Quellcode
Aktualisierungszeit 2025-02-02
Größe 23.14MB
Kommt von Github

Ähnliche Anwendungen

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15