Docs | Exemple | Exemple (ESPNET2) | Docker | Carnet de notes
ESPNET est une boîte à outils de traitement de la parole de bout en bout couvrant la reconnaissance de la parole de bout en bout, le texte à la dissection, la traduction de la parole, l'amélioration de la parole, la diarisation des haut-parleurs, la compréhension du langage parlé, etc. ESPNET utilise Pytorch comme moteur d'apprentissage en profondeur et suit également le traitement des données de style Kaldi, l'extraction / format de fonctionnalités et les recettes pour fournir une configuration complète pour diverses expériences de traitement de la parole.
ASR
(WSJ, Switchboard, Chime-4/5, LibrisPelech, Ted, CSJ, AMI, HKUST, Voxforge, Reverb, Gigaspaspeech, etc.)TTS
d'une manière similaire à la recette ASR (LJSpeech, Libritts, M-Aailabs, etc.)ST
(Fisher-Callhome Espagnol, Libri-Trans, Iwslt'18, How2, MUST-C, Mboshi-French, etc.)MT
(IWSLT'14, IWSLT'16, les recettes ST ci-dessus, etc.)SLU
(Catslu-Maps, FSC, Grabo, IemoCap, JDCinal, Snips, Slurp, SwBD-DA, etc.)SE/SS
(DNS-IS2020, Librimix, SMS-WSJ, VCTK-NOISYREVERB, WHAM!, WHAMR!, WSJ-2MIX, etc.)Veuillez vous référer à la page du didacticiel pour une documentation complète.
frontend
sur s3prl
frontend_conf
sur le nom correspondant.Démonstration
Démonstration
Pour former le voccodeur neural, veuillez vérifier les référentiels suivants:
Démonstration
Voir ESPNET2.
Si vous avez l'intention de faire des expériences complètes, y compris la formation DNN, consultez l'installation.
Si vous avez juste besoin du module Python uniquement:
# We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"
Si vous utilisez ESPNET1, veuillez installer Chainer et Cupy.
pip install chainer==6.0.0 cupy==6.0.0 # [Option]
Vous devrez peut-être installer certains packages en fonction de chaque tâche. Nous avons préparé divers scripts d'installation chez les outils / installateurs.
(ESPNET2) Une fois installé, exécutez wandb login
et SET --use_wandb true
pour activer les exécutions de suivi à l'aide de W&B.
Allez à Docker / et suivez les instructions.
Merci d'avoir pris le temps pour ESPNET! Toutes les contributions à ESPNET sont les bienvenues et n'hésitez pas à poser des questions ou des demandes de problèmes. S'il s'agit de votre première contribution ESPNET, veuillez suivre le guide de contribution.
Nous énumérons le taux d'erreur de caractère (CER) et le taux d'erreur des mots (WER) des tâches ASR majeures.
Tâche | CER (%) | Wer (%) | Modèle pré-formé |
---|---|---|---|
Aishell Dev / Test | 4.6 / 5.1 | N / A | lien |
ESPNET2 Aishell Dev / Test | 4.1 / 4.4 | N / A | lien |
Dev / test de la voix commune | 1.7 / 1.8 | 2.2 / 2.3 | lien |
CSJ EVAL1 / EVAL2 / EVAL3 | 5.7 / 3.8 / 4.2 | N / A | lien |
ESPNET2 CSJ EVAM1 / EVAL2 / EVAL3 | 4.5 / 3.3 / 3.6 | N / A | lien |
ESPNET2 Gigaspaspeech Dev / Test | N / A | 10.6 / 10.5 | lien |
Hkust dev | 23.5 | N / A | lien |
ESPNET2 HKUST DEV | 21.2 | N / A | lien |
LibrSpeech Dev_clean / dev_other / test_clean / test_other | N / A | 1.9 / 4.9 / 2.1 / 4.9 | lien |
ESPNET2 LibRistenSeech Dev_clean / Dev_other / test_clean / test_other | 0,6 / 1,5 / 0,6 / 1,4 | 1.7 / 3.4 / 1.8 / 3.6 | lien |
Standard (EVAM2000) Callhm / SWBD | N / A | 14.0 / 6.8 | lien |
ESPNET2 Switchboard (EVAM2000) CALHM / SWBD | N / A | 13.4 / 7.3 | lien |
Tedlium2 Dev / Test | N / A | 8.6 / 7.2 | lien |
ESPNET2 Tedlium2 Dev / Test | N / A | 7.3 / 7.1 | lien |
TEDLIUM3 DEV / TEST | N / A | 9.6 / 7.6 | lien |
WSJ DEV93 / EVAL92 | 3.2 / 2.1 | 7.0 / 4.7 | N / A |
ESPNET2 WSJ DEV93 / EVAL92 | 1,1 / 0,8 | 2.8 / 1.8 | lien |
Notez que les performances des tâches CSJ, HKUST et LibrisPeleeCH ont été considérablement améliorées en utilisant le réseau large (#Units = 1024) et de grandes unités de sous-mots si nécessaire rapportée par RWTH.
Si vous souhaitez vérifier les résultats des autres recettes, veuillez consulter egs/<name_of_recipe>/asr1/RESULTS.md
.
Vous pouvez reconnaître la parole dans un fichier WAV à l'aide de modèles pré-formés. Allez dans un répertoire de recettes et exécutez utils/recog_wav.sh
comme suit:
# go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav
où example.wav
est un fichier wav à reconnaître. Le taux d'échantillonnage doit être cohérent avec celui des données utilisées dans la formation.
Les modèles pré-formés disponibles dans le script de démonstration sont répertoriés ci-dessous.
Modèle | Notes |
---|---|
tedlium2.rnn.v1 | Décodage en streaming basé sur la VAD basée sur CTC |
tedlium2.rnn.v2 | Décodage en streaming basé sur le VAD basé sur CTC (décodage par lots) |
tedlium2.transformateur.v1 | Transformateur d'attention conjoint-CTC formé sur Tedlium 2 |
tedlium3.transformateur.v1 | Transformateur d'attention conjoint-CTC formé sur Tedlium 3 |
LibRispeech.transformateur.v1 | Transformateur d'attention conjoint-CTC formé sur le bibliothèque |
CommonVoice.TransFormer.v1 | Transformateur d'attention conjoint-CTC formé à CommonVoice |
CSJ.TRANSFORMER.V1 | Transformateur d'attention conjoint-CTC formé sur CSJ |
csj.rnn.v1 | Attention conjointe VGGBLSTM formé sur CSJ |
Nous énumérons les résultats de trois modèles différents sur WSJ0-2Mix, ce qui est l'un de l'ensemble de données de référence le plus utilisé pour la séparation de la parole.
Modèle | Stoi | Sar | SDR | MONSIEUR |
---|---|---|---|---|
Masquage TF | 0,89 | 11.40 | 10.24 | 18.04 |
Conv-Tasnet | 0,95 | 16.62 | 15.94 | 25.90 |
Dprnn-tasnet | 0,96 | 18.82 | 18.29 | 28.92 |
Il est basé sur ESPNET2. Des modèles pré-formés sont disponibles à la fois pour l'amélioration de la parole et les tâches de séparation de la parole.
Demos de streaming de séparation de la parole:
Nous énumérons le Bleu 4-grammes des tâches ST majeures.
Tâche | Bleu | Modèle pré-formé |
---|---|---|
Fisher-Callhome espagnol fisher_test (es-> en) | 51.03 | lien |
Fisher-Callhome espagnol calhome_evltest (es-> en) | 20.44 | lien |
Test de libri-trans (en-> fr) | 16.70 | lien |
How2 Dev5 (en-> pt) | 45.68 | lien |
MUST-C TST-COMMON (EN-> DE) | 22.91 | lien |
Mboshi-French Dev (Fr-> Mboshi) | 6.18 | N / A |
Tâche | Bleu | Modèle pré-formé |
---|---|---|
Fisher-Callhome espagnol fisher_test (es-> en) | 42.16 | N / A |
Fisher-Callhome espagnol calhome_evltest (es-> en) | 19.82 | N / A |
Test de libri-trans (en-> fr) | 16.96 | N / A |
How2 Dev5 (en-> pt) | 44.90 | N / A |
MUST-C TST-COMMON (EN-> DE) | 23,65 | N / A |
Si vous souhaitez vérifier les résultats des autres recettes, veuillez consulter egs/<name_of_recipe>/st1/RESULTS.md
.
( Nouveau! ) Nous avons fait une nouvelle démonstration E2E-St + TTS en temps réel dans Google Colab. Veuillez accéder au cahier à partir du bouton suivant et profiter de la traduction de la parole de discours en temps réel!
Vous pouvez traduire la parole dans un fichier WAV à l'aide de modèles pré-formés. Accédez à un répertoire de recettes et exécutez utils/translate_wav.sh
comme suit:
# Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav
où test.wav
est un fichier wav à traduire. Le taux d'échantillonnage doit être cohérent avec celui des données utilisées dans la formation.
Les modèles pré-formés disponibles dans le script de démonstration sont répertoriés comme ci-dessous.
Modèle | Notes |
---|---|
fisher_callhome_spanish.transformateur.v1 | Transformateur-st formé sur Fisher-Callhome Espagnol Es-> en |
Tâche | Bleu | Modèle pré-formé |
---|---|---|
Fisher-Callhome espagnol fisher_test (es-> en) | 61.45 | lien |
Fisher-Callhome espagnol calhome_evltest (es-> en) | 29.86 | lien |
Test de libri-trans (en-> fr) | 18.09 | lien |
How2 Dev5 (en-> pt) | 58,61 | lien |
MUST-C TST-COMMON (EN-> DE) | 27.63 | lien |
Iwslt'14 test2014 (en-> de) | 24.70 | lien |
Iwslt'14 test2014 (de-> en) | 29.22 | lien |
Iwslt'14 test2014 (de-> en) | 32.2 | lien |
Iwslt'16 test2014 (en-> de) | 24.05 | lien |
Iwslt'16 test2014 (de-> en) | 29.13 | lien |
Vous pouvez écouter les échantillons générés dans l'URL suivante.
Notez que dans la génération, nous utilisons Griffin-LIM (
wav/
) et parallèle Wavegan (wav_pwg/
).
Vous pouvez télécharger des modèles pré-formés via espnet_model_zoo
.
Vous pouvez télécharger des vocodeurs pré-formés via kan-bayashi/ParallelWaveGAN
.
Remarque: nous allons sur le développement basé sur ESPNET2 pour TTS. Veuillez vérifier les derniers résultats dans les résultats ESPNET2 ci-dessus.
Vous pouvez écouter nos échantillons dans l'échantillon de démo HP ESPNET-TTS. Ici, nous énumérons quelques notables:
Vous pouvez télécharger tous les modèles prélevés et des échantillons générés:
Notez que dans les échantillons générés, nous utilisons les vocodeurs suivants: Griffin-LIM ( GL ), WAVENET VOCODER ( WAVENET ), Parallel Wavegan ( ParallelWavegan ) et Melgan ( Melgan ). Les vocodeurs neuronaux sont basés sur les référentiels suivants.
Si vous souhaitez construire votre propre vocodeur neuronal, veuillez vérifier les référentiels ci-dessus. Kan-Bayashi / ParallelWavegan fournit le manuel sur la façon de décoder les fonctionnalités du modèle ESPNET-TTS avec des vocodeurs neuronaux. Veuillez le vérifier.
Ici, nous énumérons tous les vocodeurs neuronaux pré-formés. Veuillez télécharger et profiter de la génération de discours de haute qualité!
Lien de modèle | Égouter | FS [Hz] | Mel Range [Hz] | Fft / shift / win [pt] | Type de modèle |
---|---|---|---|---|---|
ljspeech.wavenet.softmax.ns.v1 | En | 22.05K | Aucun | 1024/256 / Aucun | Softmax wavenet |
ljSpeech.wavenet.mol.v1 | En | 22.05K | Aucun | 1024/256 / Aucun | Mol Wavenet |
ljSpeech.Parallel_wavegan.v1 | En | 22.05K | Aucun | 1024/256 / Aucun | Wavegan parallèle |
ljSpeech.wavenet.mol.v2 | En | 22.05K | 80-7600 | 1024/256 / Aucun | Mol Wavenet |
ljSpeech.Parallel_wavegan.v2 | En | 22.05K | 80-7600 | 1024/256 / Aucun | Wavegan parallèle |
ljSpeech.melgan.v1 | En | 22.05K | 80-7600 | 1024/256 / Aucun | Melgan |
ljSpeech.melgan.v3 | En | 22.05K | 80-7600 | 1024/256 / Aucun | Melgan |
libritts.wavenet.mol.v1 | En | 24k | Aucun | 1024/256 / Aucun | Mol Wavenet |
JSUT.WAVENET.MOL.V1 | JP | 24k | 80-7600 | 2048/300/1200 | Mol Wavenet |
JSUT.PARALLEL_WAVEGAN.V1 | JP | 24k | 80-7600 | 2048/300/1200 | Wavegan parallèle |
CSMSC.WAVENET.MOL.V1 | Zh | 24k | 80-7600 | 2048/300/1200 | Mol Wavenet |
CSMSCc.Parallel_wavegan.v1 | Zh | 24k | 80-7600 | 2048/300/1200 | Wavegan parallèle |
Si vous souhaitez utiliser les vocodeurs pré-formés ci-dessus, veuillez correspondre exactement à la fonctionnalité avec eux.
Vous pouvez essayer la démo en temps réel dans Google Colab. Veuillez accéder au cahier à partir du bouton suivant et profiter de la synthèse en temps réel!
Des modèles anglais, japonais et mandarin sont disponibles dans la démo.
Remarque: nous allons sur le développement basé sur ESPNET2 pour TTS. Veuillez vérifier la dernière démo dans la démo ESPNET2 ci-dessus.
Vous pouvez essayer la démo en temps réel dans Google Colab. Veuillez accéder au cahier à partir du bouton suivant et profiter de la synthèse en temps réel.
Nous fournissons également un script shell pour effectuer la synthèse. Allez dans un répertoire de recettes et exécutez utils/synth_wav.sh
comme suit:
# Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt
# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt
Vous pouvez modifier le modèle pré-formé comme suit:
synth_wav.sh --models ljspeech.fastspeech.v1 example.txt
La synthèse des formes d'onde est réalisée avec l'algorithme Griffin-LIM et les vocodeurs neuronaux (Wavenet et ParallelWavegan). Vous pouvez modifier le modèle de vocodeur pré-formé comme suit:
synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt
Wavenet Vocoder offre une parole de très haute qualité, mais il faut du temps pour générer.
Voir plus de détails ou des modèles disponibles via --help
.
synth_wav.sh --help
Vous pouvez écouter quelques échantillons sur la page Web de démonstration.
Le défi de conversion vocale 2020 (VCC2020) adopte ESPNET pour créer un système de base basé sur de bout en bout. Dans VCC2020, l'objectif est une VC intra / cross-linguale non parallèle. Vous pouvez télécharger des échantillons convertis du système de base Cascade ASR + TTS ici.
Nous énumérons les performances sur diverses tâches et ensembles de données SLU en utilisant la métrique rapportée dans le document de jeu de données d'origine
Tâche | Ensemble de données | Métrique | Résultat | Modèle pré-formé |
---|---|---|---|---|
Classification d'intention | SLURP | Accrocheur | 86.3 | lien |
Classification d'intention | FSC | Accrocheur | 99.6 | lien |
Classification d'intention | Ensemble de haut-parleurs FSC Unseen | Accrocheur | 98.6 | lien |
Classification d'intention | Ensemble d'énoncés invisible FSC | Accrocheur | 86.4 | lien |
Classification d'intention | Ensemble de haut-parleurs FSC Challenge | Accrocheur | 97.5 | lien |
Classification d'intention | Ensemble d'énoncés FSC Challenge | Accrocheur | 78.5 | lien |
Classification d'intention | Cale | F1 | 91.7 | lien |
Classification d'intention | Grabo (NL) | Accrocheur | 97.2 | lien |
Classification d'intention | Cat Slu Map (Zn) | Accrocheur | 78.9 | lien |
Classification d'intention | Commandes de la parole Google | Accrocheur | 98.4 | lien |
Remplissage de créneaux | SLURP | SLU-F1 | 71.9 | lien |
Classification de l'acte de dialogue | Standard | Accrocheur | 67.5 | lien |
Classification de l'acte de dialogue | JDCinal (JP) | Accrocheur | 67.4 | lien |
Reconnaissance des émotions | Iemocap | Accrocheur | 69.4 | lien |
Reconnaissance des émotions | swbd_sentiment | Macro f1 | 61.4 | lien |
Reconnaissance des émotions | Slue_Voxceleb | Macro f1 | 44.0 | lien |
Si vous souhaitez vérifier les résultats des autres recettes, veuillez vérifier egs2/<name_of_recipe>/asr1/RESULTS.md
.
La segmentation CTC détermine les segments d'énoncé dans les fichiers audio. Les segments d'énoncés alignés constituent les étiquettes des ensembles de données de parole.
En tant que démo, nous alignons le début et la fin des énoncés dans le fichier audio ctc_align_test.wav
, en utilisant l'exemple de script utils/asr_align_wav.sh
. Pour la préparation, configurez un répertoire de données:
cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml
cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF
Ici, utt_text
est le fichier contenant la liste des énoncés. Choisissez un modèle ASR pré-formé qui comprend une couche CTC pour trouver des segments d'énoncé:
# pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf
../../../utils/asr_align_wav.sh
--models ${model}
--align_dir ${align_dir}
--align_config ${align_dir} /align.yaml
${wav} ${align_dir} /utt_text
Des segments sont écrits sur aligned_segments
comme une liste de noms de fichiers / énoncés, de démarrage de l'énoncé et de fin en secondes, et un score de confiance. Le score de confiance est une probabilité dans l'espace logarithmique qui indique à quel point l'énoncé a été aligné. Si nécessaire, supprimez les mauvaises énoncés:
min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments
Le script de démonstration utils/ctc_align_wav.sh
utilise un modèle ASR déjà pré-formé (voir la liste ci-dessus pour plus de modèles). Il est recommandé d'utiliser des modèles avec des encodeurs basés sur RNN (tels que BSTMP) pour aligner de gros fichiers audio; Plutôt que d'utiliser des modèles de transformateurs avec une consommation de mémoire élevée sur des données audio plus longues. Le taux d'échantillonnage de l'audio doit être cohérent avec celui des données utilisées dans la formation; Ajustez avec sox
si nécessaire. Une recette d'exemple complet est dans egs/tedlium2/align1/
.
La segmentation CTC détermine les segments d'énoncé dans les fichiers audio. Les segments d'énoncés alignés constituent les étiquettes des ensembles de données de parole.
En tant que démo, nous alignons le début et la fin des énoncés dans le fichier audio ctc_align_test.wav
. Cela peut être fait directement à partir de la ligne de commande Python ou en utilisant le script espnet2/bin/asr_align.py
.
À partir de l'interface de ligne de commande Python:
# load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT
L'alignement fonctionne également avec des fragments du texte. Pour cela, définissez l'option gratis_blank
qui permet de sauter des sections audio non liées sans pénalité. Il est également possible d'omettre les noms d'énoncé au début de chaque ligne en définissant kaldi_style_text
à false.
aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT
Le script espnet2/bin/asr_align.py
utilise une interface similaire. Pour aligner les énoncés:
# ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT
La sortie du script peut être redirigé vers un fichier segments
en ajoutant les --output segments
argumentaires. Chaque ligne contient le nom de fichier / énoncé, le début de l'énoncé et la fin des temps en secondes, et un score de confiance; éventuellement également le texte de l'énoncé. Le score de confiance est une probabilité dans l'espace logarithmique qui indique à quel point l'énoncé a été aligné. Si nécessaire, supprimez les mauvaises énoncés:
min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments
Voir la documentation du module pour plus d'informations. Il est recommandé d'utiliser des modèles avec des encodeurs basés sur RNN (tels que BSTMP) pour aligner de gros fichiers audio; Plutôt que d'utiliser des modèles de transformateurs qui ont une consommation de mémoire élevée sur des données audio plus longues. Le taux d'échantillonnage de l'audio doit être cohérent avec celui des données utilisées dans la formation; Ajustez avec sox
si nécessaire.
De plus, nous pouvons utiliser cet outil pour fournir des informations de segmentation au niveau des jetons si nous préparons une liste de jetons au lieu de ceux des énoncés dans le fichier text
. Voir la discussion dans # 4278 (commentaire).
@inproceedings{watanabe2018espnet,
author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
title={{ESPnet}: End-to-End Speech Processing Toolkit},
year={2018},
booktitle={Proceedings of Interspeech},
pages={2207--2211},
doi={10.21437/Interspeech.2018-1456},
url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7654--7658},
year={2020},
organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
author = "Inaguma, Hirofumi and
Kiyono, Shun and
Duh, Kevin and
Karita, Shigeki and
Yalta, Nelson and
Hayashi, Tomoki and
Watanabe, Shinji",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
pages = "302--311",
}
@article{hayashi2021espnet2,
title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
journal={arXiv preprint arXiv:2110.07840},
year={2021}
}
@inproceedings{li2020espnet,
title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
pages={785--792},
year={2021},
organization={IEEE},
}
@inproceedings{arora2021espnet,
title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={7167--7171},
year={2022},
organization={IEEE}
}
@inproceedings{shi2022muskits,
author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
year={2022},
booktitle={Proceedings of Interspeech},
pages={4277-4281},
url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
year=2022,
booktitle={Proc. Interspeech 2022},
pages={5458--5462},
}
@inproceedings{gao2023euro,
title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={1--5},
year={2023},
organization={IEEE}
}
@inproceedings{peng2023reproducing,
title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@inproceedings{sharma2023espnet,
title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
pages={1--8},
year={2023},
organization={IEEE}
}
@article{jung2024espnet,
title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
journal={Proc. Interspeech 2024},
year={2024}
}
@inproceedings{yan-etal-2023-espnet,
title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
author = "Yan, Brian and
Shi, Jiatong and
Tang, Yun and
Inaguma, Hirofumi and
Peng, Yifan and
Dalmia, Siddharth and
Pol{'a}k, Peter and
Fernandes, Patrick and
Berrebbi, Dan and
Hayashi, Tomoki and
Zhang, Xiaohui and
Ni, Zhaoheng and
Hira, Moto and
Maiti, Soumi and
Pino, Juan and
Watanabe, Shinji",
booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
year = "2023",
publisher = "Association for Computational Linguistics",
pages = "400--411",
}