Docs | Beispiel | Beispiel (ESPNET2) | Docker | Notizbuch
ESPNET ist ein End-to-End-Sprachverarbeitungsinstrument, das die End-to-End-Spracherkennung, Text-zu-Sprach, Sprachübersetzung, Sprachverbesserung, Sprecherdurch Diatrisierung, gesprochenes Sprachverständnis usw. abdeckt. ESPNET verwendet Pytorch als Deep -Learning -Engine und folgt auch Datenverarbeitung, Feature -Extraktion/-format und Rezepten der Kaldi -Stil, um ein vollständiges Setup für verschiedene Sprachverarbeitungsexperimente bereitzustellen.
ASR
Rezepte (WSJ, Switchboard, Chime-4/5, Librispeech, Ted, CSJ, AMI, HKUST, Voxforge, Reverb, Gigaspeech usw.)TTS
-Rezepte auf ähnliche Weise wie das ASR-Rezept (Ljspeech, Libritts, M-Sailabs usw.)ST
Rezepte (Fisher-Callhome Spanisch, libr-trans, IWSLT'18, How2, Must-C, Mboshi-French usw.)MT
-Rezepte (IWSLT'14, IWSLT'16, die obigen ST -Rezepte usw.)SLU
Rezepte (Catslu-Maps, FSC, Grabo, Iemocap, Jdcinal, Snips, Slurp, SWBD-DA usw.)SE/SS
Rezepte (DNS-IS2020, Librimix, SMS-WSJ, VCTK-Noisyreverb, Wham!, WHAMR!, WSJ-2MIX usw.)In der Tutorial -Seite finden Sie eine vollständige Dokumentation.
frontend
auf s3prl
frontend_conf
auf den entsprechenden Namen einstellen.Demonstration
Demonstration
Um den neuronalen Vokoder zu trainieren, überprüfen Sie bitte die folgenden Repositorys:
Demonstration
Siehe ESPNET2.
Wenn Sie beabsichtigen, vollständige Experimente einschließlich DNN -Training durchzuführen, siehe Installation.
Wenn Sie nur das Python -Modul benötigen:
# We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
Wenn Sie ESPNET1 verwenden, installieren Sie bitte Chainer und Cupy.
pip install chainer==6.0.0 cupy==6.0.0 # [Option]
Möglicherweise müssen Sie je nach jeder Aufgabe einige Pakete installieren. Wir haben verschiedene Installationsskripte bei Tools/Installateuren vorbereitet.
(ESPNET2) Führen Sie nach der Installation wandb login
aus und setzen Sie --use_wandb true
um die Tracking -Läufe mit W & B zu aktivieren.
Gehen Sie zu Docker/ und befolgen Sie die Anweisungen.
Vielen Dank, dass Sie sich die Zeit für ESPNET genommen haben! Alle Beiträge zu ESPNET sind willkommen und stellen Sie gerne Fragen oder Anfragen an Probleme. Wenn es sich um Ihren ersten ESPNET -Beitrag handelt, befolgen Sie bitte den Beitragshandbuch.
Wir listen die Charakterfehlerrate (CER) und die Wortfehlerrate (WOR) von wichtigen ASR -Aufgaben auf.
Aufgabe | Cer (%) | Wer (%) | Vorausgebildeter Modell |
---|---|---|---|
Aishell Dev/Test | 4.6/5.1 | N / A | Link |
ESPNET2 Aishell Dev/Test | 4.1/4.4 | N / A | Link |
Common Voice Dev/Test | 1.7/1.8 | 2.2/2.3 | Link |
CSJ Eval1/Eval2/Eval3 | 5.7/3.8/4.2 | N / A | Link |
ESPNET2 CSJ Eval1/Eval2/Eval3 | 4,5/3.3/3.6 | N / A | Link |
ESPNET2 Gigaspeech Dev/Test | N / A | 10.6/10.5 | Link |
Hkust Dev | 23.5 | N / A | Link |
ESPNET2 HKUST DEV | 21.2 | N / A | Link |
Librispeech dev_clean/dev_other/test_clean/test_other | N / A | 1.9/4,9/2.1/4,9 | Link |
ESPNET2 Librispeech dev_clean/dev_other/test_clean/test_other | 0,6/1,5/0,6/1,4 | 1,7/3,4/1.8/3.6 | Link |
STITTBART (EVAL2000) CALLHM/SWBD | N / A | 14.0/6.8 | Link |
ESPNET2 -STITTBART (EVAL2000) CALLHM/SWBD | N / A | 13.4/7.3 | Link |
TEDLIUM2 DEV/Test | N / A | 8.6/7.2 | Link |
ESPNET2 TEDLIUM2 DEV/Test | N / A | 7.3/7.1 | Link |
TEDLIUM3 DEV/Test | N / A | 9.6/7.6 | Link |
WSJ Dev93/Eval92 | 3.2/2.1 | 7.0/4.7 | N / A |
ESPNET2 WSJ Dev93/Eval92 | 1,1/0,8 | 2,8/1,8 | Link |
Beachten Sie, dass die Leistung der CSJ-, HKUST- und Librispeech -Aufgaben durch die Verwendung des breiten Netzwerks (#Units = 1024) und große Subword -Einheiten bei Bedarf von RWTH erheblich verbessert wurde.
Wenn Sie die Ergebnisse der anderen Rezepte überprüfen möchten, überprüfen Sie egs/<name_of_recipe>/asr1/RESULTS.md
.
Sie können die Sprache in einer WAV-Datei mithilfe von vorgeborenen Modellen erkennen. Gehen Sie zu einem Rezeptverzeichnis und führen Sie utils/recog_wav.sh
wie folgt aus:
# go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav
wobei example.wav
eine WAV -Datei ist, die erkannt werden muss. Die Stichprobenrate muss mit der von im Training verwendeten Daten übereinstimmen.
Verfügbare vorgebrachte Modelle im Demo-Skript sind unten aufgeführt.
Modell | Notizen |
---|---|
TEDLIUM2.RNN.V1 | Streaming-Dekodierung basierend auf CTC-basierten VAD |
Tedlium2.Rnn.v2 | Streaming-Dekodierung basierend auf CTC-basiertem VAD (Batch-Dekodierung) |
TEDLIUM2.TRANSFORMER.V1 | Joint-CTC-Aufmerksamkeitstransformator auf Tedlium 2 trainiert |
Tedlium3.Transformer.v1 | Joint-CTC-Aufmerksamkeitstransformator auf Tedlium 3 trainiert |
librispeech.transformer.v1 | Auf librispeech trainierter Joint-CTC-Aufmerksamkeitstransformator |
CommonVoice.Transformer.v1 | Auf CommonVoice ausgebildete Joint-CTC-Aufmerksamkeitstransformator |
csj.transformer.v1 | Auf CSJ ausgebildete Joint-CTC-Aufmerksamkeitstransformator |
csj.rnn.v1 | Joint-CTC Achtung VGGBLSTM trainiert auf CSJ |
Wir listen Ergebnisse aus drei verschiedenen Modellen auf WSJ0-2MIX auf, einem der am weitesten verbreiteten Benchmark-Datensatz für die Sprachtrennung.
Modell | Stoi | Sar | SDR | HERR |
---|---|---|---|---|
TF -Maskierung | 0,89 | 11.40 | 10.24 | 18.04 |
Conv-tasnet | 0,95 | 16.62 | 15.94 | 25.90 |
DPRNN-TASNET | 0,96 | 18.82 | 18.29 | 28.92 |
Es basiert auf ESPNET2. Vorausgebildete Modelle sind sowohl für Sprachverbesserung als auch für Sprachtrennaufgaben verfügbar.
Sprachtrennstreaming -Demos:
Wir listen 4-Gramm Bleu der wichtigsten ST-Aufgaben auf.
Aufgabe | Bleu | Vorausgebildeter Modell |
---|---|---|
Fisher-Callhome Spanisch Fisher_test (es-> en) | 51.03 | Link |
Fisher-Callhome Spanier Callhome_evltest (es-> en) | 20.44 | Link |
Libri-Trans-Test (en-> fr) | 16.70 | Link |
How2 Dev5 (en-> pt) | 45,68 | Link |
MUSS-C TST-Common (en-> de) | 22.91 | Link |
Mboshi-French Dev (fr-> mboshi) | 6.18 | N / A |
Aufgabe | Bleu | Vorausgebildeter Modell |
---|---|---|
Fisher-Callhome Spanisch Fisher_test (es-> en) | 42.16 | N / A |
Fisher-Callhome Spanier Callhome_evltest (es-> en) | 19.82 | N / A |
Libri-Trans-Test (en-> fr) | 16.96 | N / A |
How2 Dev5 (en-> pt) | 44,90 | N / A |
MUSS-C TST-Common (en-> de) | 23.65 | N / A |
Wenn Sie die Ergebnisse der anderen Rezepte überprüfen möchten, überprüfen Sie egs/<name_of_recipe>/st1/RESULTS.md
.
( Neu! ) Wir haben in Google Colab eine neue Echtzeit-E2E-ST + TTS-Demonstration durchgeführt. Bitte greifen Sie über die folgende Schaltfläche auf das Notizbuch zu und genießen Sie die Echtzeit-Speech-zu-Speech-Übersetzung!
Sie können Sprache in einer WAV-Datei mithilfe vorhandener Modelle übersetzen. Gehen Sie zu einem Rezeptverzeichnis und führen Sie utils/translate_wav.sh
wie folgt aus:
# Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav
wobei test.wav
eine WAV -Datei ist, die übersetzt werden muss. Die Stichprobenrate muss mit der von im Training verwendeten Daten übereinstimmen.
Verfügbare vorgebrachte Modelle im Demo-Skript sind wie unten aufgeführt.
Modell | Notizen |
---|---|
fisher_callhome_spanish.transformer.v1 | Transformator-ster |
Aufgabe | Bleu | Vorausgebildeter Modell |
---|---|---|
Fisher-Callhome Spanisch Fisher_test (es-> en) | 61.45 | Link |
Fisher-Callhome Spanier Callhome_evltest (es-> en) | 29,86 | Link |
Libri-Trans-Test (en-> fr) | 18.09 | Link |
How2 Dev5 (en-> pt) | 58.61 | Link |
MUSS-C TST-Common (en-> de) | 27.63 | Link |
IWSLT'14 Test2014 (en-> de) | 24.70 | Link |
IWSLT'14 Test2014 (de-> en) | 29.22 | Link |
IWSLT'14 Test2014 (de-> en) | 32.2 | Link |
IWSLT'16 Test2014 (en-> de) | 24.05 | Link |
IWSLT'16 Test2014 (de-> en) | 29.13 | Link |
Sie können die erzeugten Beispiele in der folgenden URL anhören.
Beachten Sie, dass wir in der Generation Griffin-lim (
wav/
) und Parallel Wavegan (wav_pwg/
) verwenden.
Sie können vorgebildete Modelle über espnet_model_zoo
herunterladen.
Sie können vorgebildete Vocoder über kan-bayashi/ParallelWaveGAN
herunterladen.
HINWEIS: Wir bewegen uns zur ESPNET2-basierten Entwicklung für TTS. Bitte überprüfen Sie die neuesten Ergebnisse in den obigen ESPNET2 -Ergebnissen.
Sie können unsere Muster in der Demo HP ESPNET-TTS-Sample anhören. Hier listen wir einige bemerkenswerte auf:
Sie können alle vorgeborenen Modelle und generierten Muster herunterladen:
Beachten Sie, dass wir in den erzeugten Proben die folgenden Vocoder verwenden: Griffin-lim ( GL ), Wellenet-Vokoder ( Wellenet ), Parallelwellegan ( Parallelwavegan ) und Melgan ( Melgan ). Die neuronalen Vocoder basieren auf den folgenden Repositorys.
Wenn Sie Ihren eigenen neuronalen Vocoder bauen möchten, überprüfen Sie bitte die oben genannten Repositories. Kan-Bayashi/Parallelwavegan bietet das Handbuch, wie die Funktionen des ESPNET-TTS-Modells mit neuronalen Vocoder dekodieren. Bitte überprüfen Sie es.
Hier listen wir alle vorgeborenen neuronalen Vocoder auf. Bitte laden Sie die Generation hochwertiger Rede herunter und genießen Sie sie!
Modelllink | Lang | FS [Hz] | Mel Range [Hz] | FFT / Shift / Win [PT] | Modelltyp |
---|---|---|---|---|---|
ljspeech.wavenet.softmax.ns.v1 | En | 22.05k | Keiner | 1024 /256 / keine | Softmax -Wellenet |
ljspeech.wavenet.mol.v1 | En | 22.05k | Keiner | 1024 /256 / keine | Mol -Wavenet |
ljspeech.parallel_wavegan.v1 | En | 22.05k | Keiner | 1024 /256 / keine | Paralleler Wavegan |
ljspeech.wavenet.mol.v2 | En | 22.05k | 80-7600 | 1024 /256 / keine | Mol -Wavenet |
ljspeech.parallel_wavegan.v2 | En | 22.05k | 80-7600 | 1024 /256 / keine | Paralleler Wavegan |
ljspeech.Melgan.v1 | En | 22.05k | 80-7600 | 1024 /256 / keine | Melgan |
ljspeech.Melgan.v3 | En | 22.05k | 80-7600 | 1024 /256 / keine | Melgan |
libritts.wavenet.mol.v1 | En | 24k | Keiner | 1024 /256 / keine | Mol -Wavenet |
jsut.wavenet.mol.v1 | JP | 24k | 80-7600 | 2048 /300 /1200 | Mol -Wavenet |
JSUT.PARALLEL_WAVEGAN.V1 | JP | 24k | 80-7600 | 2048 /300 /1200 | Paralleler Wavegan |
csmsc.wavenet.mol.v1 | Zh | 24k | 80-7600 | 2048 /300 /1200 | Mol -Wavenet |
csmsc.parallel_wavegan.v1 | Zh | 24k | 80-7600 | 2048 /300 /1200 | Paralleler Wavegan |
Wenn Sie die oben ausgebildeten Vocoder verwenden möchten, passen Sie bitte genau die Funktionseinstellung mit ihnen an.
Sie können die Echtzeit-Demo in Google Colab ausprobieren. Bitte greifen Sie über die folgende Schaltfläche auf das Notizbuch zu und genießen Sie die Echtzeit-Synthese!
In der Demo sind Englisch-, Japanisch- und Mandarin -Modelle erhältlich.
HINWEIS: Wir bewegen uns zur ESPNET2-basierten Entwicklung für TTS. Bitte überprüfen Sie die neueste Demo in der obigen ESPNET2 -Demo.
Sie können die Echtzeit-Demo in Google Colab ausprobieren. Bitte greifen Sie über die folgende Schaltfläche auf das Notizbuch zu und genießen Sie die Echtzeit-Synthese.
Wir bieten auch ein Shell -Skript zur Durchführung von Synthese. Gehen Sie zu einem Rezeptverzeichnis und führen Sie utils/synth_wav.sh
wie folgt aus:
# Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt
# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt
Sie können das vorgebildete Modell wie folgt ändern:
synth_wav.sh --models ljspeech.fastspeech.v1 example.txt
Die Wellenform-Synthese wird mit dem Griffin-Lim-Algorithmus und dem neuralen Vokodierer (Wavenet und Parallelwavegan) durchgeführt. Sie können das vorgebildete Vocoder-Modell wie folgt ändern:
synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt
Der Wavenet-Vokoder bietet sehr hochwertige Sprache, aber es braucht Zeit, um zu generieren.
Weitere Details oder verfügbare Modelle finden Sie über --help
.
synth_wav.sh --help
Sie können einige Muster auf der Demo -Webseite hören.
Die Voice Conversion Challenge 2020 (VCC2020) nutzt ESPNET, um ein von End-to-End-basierter Basissystem zu erstellen. In VCC2020 ist das Ziel intra/Kreuzual nicht parallel VC. Hier können Sie konvertierte Muster des Cascade ASR+TTS -Baseline -Systems herunterladen.
Wir listen die Leistung bei verschiedenen SLU -Aufgaben und -Datensätzen mit der im ursprünglichen Datensatzpapier angegebenen Metrik auf
Aufgabe | Datensatz | Metrisch | Ergebnis | Vorausgebildeter Modell |
---|---|---|---|---|
Absichtsklassifizierung | SCHLÜRFEN | Acc | 86,3 | Link |
Absichtsklassifizierung | Fsc | Acc | 99,6 | Link |
Absichtsklassifizierung | FSC unsichtbarer Lautsprecher -Set | Acc | 98.6 | Link |
Absichtsklassifizierung | FSC unsichtbarer Äußerung Set | Acc | 86,4 | Link |
Absichtsklassifizierung | FSC Challenge Speaker Set | Acc | 97,5 | Link |
Absichtsklassifizierung | FSC Challenge Äußerlichkeit Set | Acc | 78,5 | Link |
Absichtsklassifizierung | Schnitt | F1 | 91.7 | Link |
Absichtsklassifizierung | Grabo (NL) | Acc | 97,2 | Link |
Absichtsklassifizierung | Cat SLU -Karte (Zn) | Acc | 78,9 | Link |
Absichtsklassifizierung | Google -Sprachbefehle | Acc | 98.4 | Link |
Schlitzfüllung | SCHLÜRFEN | SLU-F1 | 71,9 | Link |
Klassifizierung des Dialoggesetzes | Telefonzentrale | Acc | 67,5 | Link |
Klassifizierung des Dialoggesetzes | Jdcinal (JP) | Acc | 67,4 | Link |
Emotionserkennung | Iemocap | Acc | 69.4 | Link |
Emotionserkennung | swbd_sentiment | Makro F1 | 61.4 | Link |
Emotionserkennung | SLUE_VOXCELEB | Makro F1 | 44.0 | Link |
Wenn Sie die Ergebnisse der anderen Rezepte überprüfen möchten, überprüfen Sie bitte egs2/<name_of_recipe>/asr1/RESULTS.md
.
Die CTC -Segmentierung bestimmt Äußerungssegmente in Audio -Dateien. Ausgerichtete Äußerungssegmente bilden die Beschriftungen von Sprachdatensätzen.
Als Demo richten wir das Start und Ende der Äußerungen in der Audiodatei ctc_align_test.wav
unter Verwendung der Beispielsskript utils/asr_align_wav.sh
aus. Richten Sie zur Vorbereitung ein Datenverzeichnis ein:
cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml
cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF
Hier ist utt_text
die Datei, die die Liste der Äußerungen enthält. Wählen Sie ein vorgebildetes ASR-Modell, das eine CTC-Schicht enthält, um Äußerungssegmente zu finden:
# pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf
../../../utils/asr_align_wav.sh
--models ${model}
--align_dir ${align_dir}
--align_config ${align_dir} /align.yaml
${wav} ${align_dir} /utt_text
Segmente werden an aligned_segments
als Liste von Datei-/Äußerungsnamen, Äußerungsstart- und Endzeiten in Sekunden und als Vertrauensbewertung geschrieben. Der Vertrauenswert ist eine Wahrscheinlichkeit im Protokollraum, die angibt, wie gut die Äußerung ausgerichtet war. Bei Bedarf schlechte Äußerungen entfernen:
min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments
Das Demo-Skript- utils/ctc_align_wav.sh
verwendet ein bereits vorgebildetes ASR-Modell (siehe oben die Liste oben für weitere Modelle). Es wird empfohlen, Modelle mit RNN-basierten Encodern (wie Blstmp) zum Ausrichten großer Audiodateien zu verwenden. Anstatt Transformatormodelle mit einem hohen Speicherverbrauch für längere Audiodaten zu verwenden. Die Stichprobenrate des Audio muss mit der der im Training verwendeten Daten übereinstimmen. Bei Bedarf mit sox
einstellen. Ein vollständiges Rezept in egs/tedlium2/align1/
.
Die CTC -Segmentierung bestimmt Äußerungssegmente in Audio -Dateien. Ausgerichtete Äußerungssegmente bilden die Beschriftungen von Sprachdatensätzen.
Als Demo richten wir den Start und Ende der Äußerungen in der Audiodatei ctc_align_test.wav
aus. Dies kann entweder direkt aus der Befehlszeile von Python oder mit dem Skript espnet2/bin/asr_align.py
erfolgen.
Von der Python -Befehlszeilenschnittstelle:
# load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT
Die Ausrichtung funktioniert auch mit Fragmenten des Textes. Setzen Sie hierzu die Option gratis_blank
, mit der das Überspringen von nicht verwandten Audioabschnitten ohne Strafe ermöglicht wird. Es ist auch möglich, die Äußerungsnamen zu Beginn jeder Zeile wegzulassen, indem Sie kaldi_style_text
auf false einstellen.
aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT
Das Skript espnet2/bin/asr_align.py
verwendet eine ähnliche Schnittstelle. Äußerungen ausrichten:
# ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT
Die Ausgabe des Skripts kann durch Hinzufügen des Arguments --output segments
in eine segments
umgeleitet werden. Jede Zeile enthält den Datei-/Äußerungsnamen, die Äußerungsstart- und Endzeit in Sekunden und eine Vertrauensbewertung. Optional auch der Äußerungstext. Der Vertrauenswert ist eine Wahrscheinlichkeit im Protokollraum, die angibt, wie gut die Äußerung ausgerichtet war. Bei Bedarf schlechte Äußerungen entfernen:
min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments
Weitere Informationen finden Sie in der Moduldokumentation. Es wird empfohlen, Modelle mit RNN-basierten Encodern (wie Blstmp) zum Ausrichten großer Audiodateien zu verwenden. Anstatt Transformatormodelle mit einem hohen Speicherverbrauch für längere Audiodaten zu verwenden. Die Stichprobenrate des Audio muss mit der der im Training verwendeten Daten übereinstimmen. Bei Bedarf mit sox
einstellen.
Außerdem können wir dieses Tool verwenden, um Segmentierungsinformationen auf Tokenebene bereitzustellen, wenn wir eine Liste von Token anstelle der von Äußerungen in der text
erstellen. Siehe die Diskussion in #4278 (Kommentar).
@inproceedings{watanabe2018espnet,
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
title={{ESPnet}: End-to-End Speech Processing Toolkit},
year={2018},
booktitle={Proceedings of Interspeech},
pages={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7654--7658},
year={2020},
organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
author = "Inaguma, Hirofumi and
Kiyono, Shun and
Duh, Kevin and
Karita, Shigeki and
Yalta, Nelson and
Hayashi, Tomoki and
Watanabe, Shinji",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
pages = "302--311",
}
@article{hayashi2021espnet2,
title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
journal={arXiv preprint arXiv:2110.07840},
year={2021}
}
@inproceedings{li2020espnet,
title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
pages={785--792},
year={2021},
organization={IEEE},
}
@inproceedings{arora2021espnet,
title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7167--7171},
year={2022},
organization={IEEE}
}
@inproceedings{shi2022muskits,
author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
year={2022},
booktitle={Proceedings of Interspeech},
pages={4277-4281},
url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
year=2022,
booktitle={Proc. Interspeech 2022},
pages={5458--5462},
}
@inproceedings{gao2023euro,
title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}
@inproceedings{peng2023reproducing,
title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@inproceedings{sharma2023espnet,
title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@article{jung2024espnet,
title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
journal={Proc. Interspeech 2024},
year={2024}
}
@inproceedings{yan-etal-2023-espnet,
title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
author = "Yan, Brian and
Shi, Jiatong and
Tang, Yun and
Inaguma, Hirofumi and
Peng, Yifan and
Dalmia, Siddharth and
Pol{'a}k, Peter and
Fernandes, Patrick and
Berrebbi, Dan and
Hayashi, Tomoki and
Zhang, Xiaohui and
Ni, Zhaoheng and
Hira, Moto and
Maiti, Soumi and
Pino, Juan and
Watanabe, Shinji",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
year = "2023",
publisher = "Association for Computational Linguistics",
pages = "400--411",
}