Téléchargement espnet - Téléchargement du code source espnet

espnet

Autre code source

version 202409

Télécharger

Ubuntu / python3.11 / pip Ubuntu / python3.10 / conda debian11 / python3.10 / conda Windows / Python3.10 / pip macOS / Python3.10 / pip macOS / Python3.10 / conda

Docs | Exemple | Exemple (ESPNET2) | Docker | Carnet de notes

ESPNET est une boîte à outils de traitement de la parole de bout en bout couvrant la reconnaissance de la parole de bout en bout, le texte à la dissection, la traduction de la parole, l'amélioration de la parole, la diarisation des haut-parleurs, la compréhension du langage parlé, etc. ESPNET utilise Pytorch comme moteur d'apprentissage en profondeur et suit également le traitement des données de style Kaldi, l'extraction / format de fonctionnalités et les recettes pour fournir une configuration complète pour diverses expériences de traitement de la parole.

Série de tutoriels

Tutoriel 2019 sur Intere-Speech
- Matériel
Tutoriel 2021 au CMU
- Vidéo en ligne
- Matériel
Tutoriel 2022 au CMU
- Utilisation de l'ESPNET (ASR comme exemple)
  - Vidéo en ligne
  - Matériel
- Ajouter de nouveaux modèles / tâches à ESPNET
  - Vidéo en ligne
  - Matériel

Caractéristiques clés

Recette complète de style kaldi-

Numéros de support des recettes ASR (WSJ, Switchboard, Chime-4/5, LibrisPelech, Ted, CSJ, AMI, HKUST, Voxforge, Reverb, Gigaspaspeech, etc.)
Soutenez les numéros de recettes TTS d'une manière similaire à la recette ASR (LJSpeech, Libritts, M-Aailabs, etc.)
Numéro de soutien des recettes ST (Fisher-Callhome Espagnol, Libri-Trans, Iwslt'18, How2, MUST-C, Mboshi-French, etc.)
Numéros de support des recettes MT (IWSLT'14, IWSLT'16, les recettes ST ci-dessus, etc.)
Numéros de support de recettes SLU (Catslu-Maps, FSC, Grabo, IemoCap, JDCinal, Snips, Slurp, SwBD-DA, etc.)
Numéros de soutien des recettes SE/SS (DNS-IS2020, Librimix, SMS-WSJ, VCTK-NOISYREVERB, WHAM!, WHAMR!, WSJ-2MIX, etc.)
Support Recepe de conversion vocale (VCC2020 BASELINE)
Support Recette de diarisation du haut-parleur (mini_librispenech, Librimix)
Support Recette de synthèse vocale de chant (OFUTON_P_UTAGOE_DB, OpenCPOP, M4Singer, etc.)

ASR: reconnaissance automatique de la parole

Performance de pointe dans plusieurs repères ASR (comparable / supérieur à DNN / HMM hybride)
CTC hybride CTC / ASR de bout en bout
- Formation rapide / précise avec CTC / ATTENTION Multi-coche
- CTC / Attention Décodage conjoint pour augmenter le décodage d'alignement monotonique
- Encodeur: CNN + Birnn (LSTM / GRU), sous-échantillonnage (LSTM / GRU), transformateur, conformère, brancherie ou e-branchoFormor
- Décodeur: RNN (LSTM / GRU), Transformateur ou S4
ATTENTION: ATTENTION FLASH, produit DOT, attention respectueuse de l'emplacement, variantes de plusieurs têtes
Incorporer RNNLM / LSTMLM / Transformerlm / N-gram formé uniquement avec des données de texte
Décodage du GPU par lots
Augmentation des données
ASR de bout en bout basé sur le transducteur
- Architecture:
  - Encodeur personnalisé prenant en charge les RNN, conformer, BranchFormer (w / variantes), 1D conv / TDNN.
  - Décodeur avec paramètres partagés sur les blocs prenant en charge RNN, apatrides avec 1d Conv, Mega et RWKV.
  - Pré-encodeur: VGG2L ou CONV2D disponible.
- Algorithmes de recherche:
  - La recherche gourmand se limite à une émission par étalon.
  - Algorithme de recherche de faisceau par défaut [Graves, 2012] sans recherche de préfixe.
  - Décodage synchrone de longueur d'alignement [Saon et al., 2020].
  - Décodage synchrone du temps [Saon et al., 2020].
  - Recherche de faisceau contrainte à N-Step modifié à partir de [Kim et al., 2020].
  - Recherche d'extension adaptative modifiée basée sur [Kim et al., 2021] et NSC.
- Caractéristiques:
  - Interface unifiée pour la reconnaissance de la parole hors ligne et en streaming.
  - Apprentissage multi-tâches avec diverses pertes auxiliaires:
    - Encodeur: CTC, transducteur auxiliaire et divergence symétrique KL.
    - Décodeur: entropie croisée avec lissage de l'étiquette.
  - Transférer l'apprentissage avec un modèle acoustique et / ou un modèle de langue.
  - Formation avec la méthode de régularisation Fastmit [Yu et al., 2021].
Veuillez vous référer à la page du didacticiel pour une documentation complète.
Segmentation CTC
Modèle non autorégressif basé sur le masque-CTC
Exemples ASR pour soutenir la documentation linguistique en voie de disparition (veuillez consulter EGS / Puebla_nahuatl et EGS / Yoloxochitl_mixtec pour plus de détails)
Modèle pré-formé WAV2VEC2.0 en tant qu'encodeur, importé de Fairseq.
Représentations d'apprentissage auto-supervisées comme fonctionnalités, en utilisant des modèles en amont dans S3PRL en frontend.
- Définir frontend sur s3prl
- Sélectionnez n'importe quel modèle en amont en définissant le frontend_conf sur le nom correspondant.
Transfert d'apprentissage:
- Utilisation facile et transferts à partir de modèles précédemment formés par votre groupe ou des modèles à partir du référentiel de visage ESPNET HUGGING.
- Documentation et exemple de jouet POURNABLE SUR COLAB.
Streaming Transformateur / Conformer ASR avec recherche de faisceau synchrone en blocs.
Auto-agence auto-restreinte basée sur LongFormer en tant qu'encodeur pour les longues séquences
Modèle d'Openai Whisper, ASR robuste basé sur l'apprentissage multi-ciel à grande échelle et faiblement supervisé

Démonstration

Demo ASR en temps réel avec ESPNET2
Demo Web de Gradio sur les étreintes des espaces faciaux. Consultez la démo Web
Streaming Transformateur ASR Local Demo avec ESPNET2.

TTS: Text-to-dispeech

Architecture
- Tacotron2
- Transformateur-TTS
- Fast-espèle
- FastSpeech2
- Conformer FastSpeech et FastSpeech2
- Vits
- Avion
Extension multi-haut-parleurs et multi-langues
- Intégration de haut-parleur pré-formé (par exemple, Vector X)
- ID de conférencier intégrée
- ID de langue INCRANDIE
- Token de style mondial (TPS)
- Mélange des intérêts ci-dessus
Formation de bout en bout
- Modèle de texte à vague de bout en bout (par exemple, les vites, les jets, etc.)
- Formation conjointe de Text2Mel et Vocoder
Divers soutien linguistique
- En / jp / zn / de / ru / et plus ...
Intégration avec des vocodeurs neuronaux
- Wavegan parallèle
- Melgan
- Multi-Band Melgan
- Hifigan
- Stylemelgan
- Mélange des modèles ci-dessus

Démonstration

Démo TTS en temps réel avec ESPNET2
Intégré aux étreintes des espaces faciaux avec Gradio. Voir démo:

Pour former le voccodeur neural, veuillez vérifier les référentiels suivants:

kan-bayashi / parallelwavegan
R9Y9 / WAVENET_VOCODER

SE: amélioration de la parole (et séparation)

Amélioration de la parole unique
Séparation de la parole multi-haut-parleurs
Structure unifiée de coder-séparateur pour les modèles du domaine du temps et du domaine de la fréquence
- Encodeur / décodeur: STFT / ISTFT, Convolution / Transposition-Convolution
- Séparateurs: BLSTM, transformateur, conformère, tasnet, dprnn, skim, svoice, dc-crn, dccrn, regroupement profond, réseau d'attracteur en profondeur, fasnet, ifasnet, formeurs de faisceau neural, etc.
Intégration ASR flexible: travailler comme tâche individuelle ou comme frontend ASR
Modèles pré-formés faciles à importer à partir d'astéroïdes
- Les modèles pré-formés d'Astéroïdes et la configuration spécifique sont pris en charge.

Démonstration

Démo SE interactif avec ESPNET2
Streaming SE Demo avec ESPNET2

ST: Traduction de la parole et MT: Traduction automatique

Performance de pointe dans plusieurs benchmarks (comparable / supérieure à ASR et MT en cascade)
ST de bout en bout basé sur les transformateurs (Nouveau!)
MT de bout en bout basé sur le transformateur (nouveau!)

VC: conversion vocale

Transformateur et VC parallèle basé sur Tacotron2 à l'aide du spectrogramme MEL
VC de bout en bout basé sur ASR + TTS en cascade (Système de base pour le défi de conversion vocale 2020!)

SLU: compréhension de la langue parlée

Architecture
- Encodeur basé sur un transformateur
- Encodeur basé sur les conformères
- Encodeur basé sur BranchFormer
- Encodeur basé sur les branchies électroniques
- Décodeur basé sur RNN
- Décodeur à base de transformateur
Prise en charge du multitâche avec ASR
- Prédire à la fois l'intention et la transcription ASR
Prise en charge du multitâche avec NLU
- Modèle de 2 passes basé sur l'encodeur de délibération
Support en utilisant des modèles ASR pré-formés
- Hubert
- Wav2vec2
- VQ-APC
- Tera et plus ...
Support en utilisant des modèles NLP pré-formés
- Bert
- Mpnet et plus ...
Divers soutien linguistique
- En / jp / zn / nl / et plus ...
Soutient l'utilisation du contexte à partir d'énoncés précédents
Prise en charge de l'utilisation d'autres tâches comme SE d'une manière pipeline
Prend en charge deux passes SLU qui combinent une démonstration de transcription audio et ASR
Effectuer une compréhension bruyante du langage parlé à l'aide d'un modèle d'amélioration de la parole suivi d'un modèle de compréhension du langage parlé.
Effectuer un langage parlé à deux passes, en compréhension du modèle du deuxième pass, des informations acoustiques et sémantiques.
Intégré aux étreintes des espaces faciaux avec Gradio. Voir la démo SLU sur plusieurs langues:

Sum: Résumé de la parole

Recette de résumé de bout en bout pour des vidéos pédagogiques en utilisant une auto-atténuer restreinte [Sharma et al., 2022]

SVS: Singing Voice Synthesis

Framework fusionne des muscles
Architecture
- Modèle non autorégressif basé sur RNN
- Xiaoice
- Chantons de tacotron
- Diffsinger (en cours)
- Visinger
- Visinger 2 (ses variations avec différents vocodeurs-architecture)
Prise en charge de la synthèse de chant multilingue et multilingue
- ID de conférencier intégrée
- ID de langue INCRANDIE
Divers soutien linguistique
- JP / EN / KR / ZH
Intégration serrée avec des vocodeurs neuronaux (comme TTS)

SSL: apprentissage auto-supervisé

Soutenir Hubert Pre-Tra-Traîner:
- Exemple de recette: EGS2 / LibRispenech / SSL1

UASR: ASR non supervisé (Euro: ESPNET Reconnaissance non supervisée - Open-source)

Architecture
- wav2vec-u (avec différents modèles autopéralisés)
- WAV2VEC-U 2.0 (en cours)
Prise en charge de PrefixBeamSearch et du décodage WFST basé sur K2

S2T: Speech-to-Text with Whisper de style chuchot

Reproduit la formation de style chuchotement à partir de zéro à l'aide de données publiques: OWSM
Prend en charge plusieurs tâches dans un seul modèle
- Reconnaissance de la parole multilingue
- Traduction de la parole n'importe qui
- Identification du langage
- Prédiction de l'horodatage au niveau de l'énoncé (segmentation)

Framework DNN

Architecture de réseau flexible grâce à Chainer et Pytorch
Traitement frontal flexible grâce à la prise en charge de Kaldiio et HDF5
Surveillance basée sur Tensor
Formation à grande échelle à grande vitesse

Espnet2

Voir ESPNET2.

Indépendant de Kaldi / Chainer, contrairement à ESPNET1
Extraction des fonctionnalités à la volée et traitement du texte lors de la formation
Soutenir DistributedDataparallel et Daraparallel les deux
Soutenir plusieurs nœuds d'entraînement et intégré à Slurm ou MPI
Soutenir la formation fragée fournie par FairScale
Une recette de modèle qui peut être appliquée à toutes les corpus
Possible pour entraîner n'importe quelle taille de corpus sans erreur de mémoire CPU
Zoo du modèle ESPNET
Intégré à Wandb

Installation

Si vous avez l'intention de faire des expériences complètes, y compris la formation DNN, consultez l'installation.

Si vous avez juste besoin du module Python uniquement:

 # We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"

Si vous utilisez ESPNET1, veuillez installer Chainer et Cupy.

pip install chainer==6.0.0 cupy==6.0.0    # [Option]

Vous devrez peut-être installer certains packages en fonction de chaque tâche. Nous avons préparé divers scripts d'installation chez les outils / installateurs.

(ESPNET2) Une fois installé, exécutez wandb login et SET --use_wandb true pour activer les exécutions de suivi à l'aide de W&B.

Récipient Docker

Allez à Docker / et suivez les instructions.

Contribution

Merci d'avoir pris le temps pour ESPNET! Toutes les contributions à ESPNET sont les bienvenues et n'hésitez pas à poser des questions ou des demandes de problèmes. S'il s'agit de votre première contribution ESPNET, veuillez suivre le guide de contribution.

Résultats de l'ASR

développer

Nous énumérons le taux d'erreur de caractère (CER) et le taux d'erreur des mots (WER) des tâches ASR majeures.

Tâche	CER (%)	Wer (%)	Modèle pré-formé
Aishell Dev / Test	4.6 / 5.1	N / A	lien
ESPNET2 Aishell Dev / Test	4.1 / 4.4	N / A	lien
Dev / test de la voix commune	1.7 / 1.8	2.2 / 2.3	lien
CSJ EVAL1 / EVAL2 / EVAL3	5.7 / 3.8 / 4.2	N / A	lien
ESPNET2 CSJ EVAM1 / EVAL2 / EVAL3	4.5 / 3.3 / 3.6	N / A	lien
ESPNET2 Gigaspaspeech Dev / Test	N / A	10.6 / 10.5	lien
Hkust dev	23.5	N / A	lien
ESPNET2 HKUST DEV	21.2	N / A	lien
LibrSpeech Dev_clean / dev_other / test_clean / test_other	N / A	1.9 / 4.9 / 2.1 / 4.9	lien
ESPNET2 LibRistenSeech Dev_clean / Dev_other / test_clean / test_other	0,6 / 1,5 / 0,6 / 1,4	1.7 / 3.4 / 1.8 / 3.6	lien
Standard (EVAM2000) Callhm / SWBD	N / A	14.0 / 6.8	lien
ESPNET2 Switchboard (EVAM2000) CALHM / SWBD	N / A	13.4 / 7.3	lien
Tedlium2 Dev / Test	N / A	8.6 / 7.2	lien
ESPNET2 Tedlium2 Dev / Test	N / A	7.3 / 7.1	lien
TEDLIUM3 DEV / TEST	N / A	9.6 / 7.6	lien
WSJ DEV93 / EVAL92	3.2 / 2.1	7.0 / 4.7	N / A
ESPNET2 WSJ DEV93 / EVAL92	1,1 / 0,8	2.8 / 1.8	lien

Notez que les performances des tâches CSJ, HKUST et LibrisPeleeCH ont été considérablement améliorées en utilisant le réseau large (#Units = 1024) et de grandes unités de sous-mots si nécessaire rapportée par RWTH.

Si vous souhaitez vérifier les résultats des autres recettes, veuillez consulter egs/<name_of_recipe>/asr1/RESULTS.md .

Démo ASR

développer

Vous pouvez reconnaître la parole dans un fichier WAV à l'aide de modèles pré-formés. Allez dans un répertoire de recettes et exécutez utils/recog_wav.sh comme suit:

 # go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav

où example.wav est un fichier wav à reconnaître. Le taux d'échantillonnage doit être cohérent avec celui des données utilisées dans la formation.

Les modèles pré-formés disponibles dans le script de démonstration sont répertoriés ci-dessous.

Modèle	Notes
tedlium2.rnn.v1	Décodage en streaming basé sur la VAD basée sur CTC
tedlium2.rnn.v2	Décodage en streaming basé sur le VAD basé sur CTC (décodage par lots)
tedlium2.transformateur.v1	Transformateur d'attention conjoint-CTC formé sur Tedlium 2
tedlium3.transformateur.v1	Transformateur d'attention conjoint-CTC formé sur Tedlium 3
LibRispeech.transformateur.v1	Transformateur d'attention conjoint-CTC formé sur le bibliothèque
CommonVoice.TransFormer.v1	Transformateur d'attention conjoint-CTC formé à CommonVoice
CSJ.TRANSFORMER.V1	Transformateur d'attention conjoint-CTC formé sur CSJ
csj.rnn.v1	Attention conjointe VGGBLSTM formé sur CSJ

SE RÉSULTATS

développer

Nous énumérons les résultats de trois modèles différents sur WSJ0-2Mix, ce qui est l'un de l'ensemble de données de référence le plus utilisé pour la séparation de la parole.

Modèle	Stoi	Sar	SDR	MONSIEUR
Masquage TF	0,89	11.40	10.24	18.04
Conv-Tasnet	0,95	16.62	15.94	25.90
Dprnn-tasnet	0,96	18.82	18.29	28.92

SE Demos

développer

Vous pouvez essayer la démo interactive avec Google Colab. Veuillez cliquer sur le bouton suivant pour accéder aux démos.

Il est basé sur ESPNET2. Des modèles pré-formés sont disponibles à la fois pour l'amélioration de la parole et les tâches de séparation de la parole.

Demos de streaming de séparation de la parole:

ST RÉSULTATS

développer

Nous énumérons le Bleu 4-grammes des tâches ST majeures.

système de bout en bout

Tâche	Bleu	Modèle pré-formé
Fisher-Callhome espagnol fisher_test (es-> en)	51.03	lien
Fisher-Callhome espagnol calhome_evltest (es-> en)	20.44	lien
Test de libri-trans (en-> fr)	16.70	lien
How2 Dev5 (en-> pt)	45.68	lien
MUST-C TST-COMMON (EN-> DE)	22.91	lien
Mboshi-French Dev (Fr-> Mboshi)	6.18	N / A

système en cascade

Tâche	Bleu	Modèle pré-formé
Fisher-Callhome espagnol fisher_test (es-> en)	42.16	N / A
Fisher-Callhome espagnol calhome_evltest (es-> en)	19.82	N / A
Test de libri-trans (en-> fr)	16.96	N / A
How2 Dev5 (en-> pt)	44.90	N / A
MUST-C TST-COMMON (EN-> DE)	23,65	N / A

Si vous souhaitez vérifier les résultats des autres recettes, veuillez consulter egs/<name_of_recipe>/st1/RESULTS.md .

Démo à la fiche

développer

( Nouveau! ) Nous avons fait une nouvelle démonstration E2E-St + TTS en temps réel dans Google Colab. Veuillez accéder au cahier à partir du bouton suivant et profiter de la traduction de la parole de discours en temps réel!

Vous pouvez traduire la parole dans un fichier WAV à l'aide de modèles pré-formés. Accédez à un répertoire de recettes et exécutez utils/translate_wav.sh comme suit:

 # Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav

où test.wav est un fichier wav à traduire. Le taux d'échantillonnage doit être cohérent avec celui des données utilisées dans la formation.

Les modèles pré-formés disponibles dans le script de démonstration sont répertoriés comme ci-dessous.

Modèle	Notes
fisher_callhome_spanish.transformateur.v1	Transformateur-st formé sur Fisher-Callhome Espagnol Es-> en

Résultats de MT

développer

Tâche	Bleu	Modèle pré-formé
Fisher-Callhome espagnol fisher_test (es-> en)	61.45	lien
Fisher-Callhome espagnol calhome_evltest (es-> en)	29.86	lien
Test de libri-trans (en-> fr)	18.09	lien
How2 Dev5 (en-> pt)	58,61	lien
MUST-C TST-COMMON (EN-> DE)	27.63	lien
Iwslt'14 test2014 (en-> de)	24.70	lien
Iwslt'14 test2014 (de-> en)	29.22	lien
Iwslt'14 test2014 (de-> en)	32.2	lien
Iwslt'16 test2014 (en-> de)	24.05	lien
Iwslt'16 test2014 (de-> en)	29.13	lien

Résultats du TTS

Espnet2

Vous pouvez écouter les échantillons générés dans l'URL suivante.

ESPNET2 TTS générés des échantillons

Notez que dans la génération, nous utilisons Griffin-LIM ( wav/ ) et parallèle Wavegan ( wav_pwg/ ).

Vous pouvez télécharger des modèles pré-formés via espnet_model_zoo .

Zoo du modèle ESPNET
Liste des modèles pré-formés

Vous pouvez télécharger des vocodeurs pré-formés via kan-bayashi/ParallelWaveGAN .

kan-bayashi / parallelwavegan
Liste des vocoders pré-formés

ESPNET1

Remarque: nous allons sur le développement basé sur ESPNET2 pour TTS. Veuillez vérifier les derniers résultats dans les résultats ESPNET2 ci-dessus.

Vous pouvez écouter nos échantillons dans l'échantillon de démo HP ESPNET-TTS. Ici, nous énumérons quelques notables:

Single English Speaking Tacotron2
Tacotron japonais célibataire Tacotron2
Single autre orateur de langue Tacotron2
Tacotron 2 multi-anglais Tacotron2
Transformateur de locuteurs anglais unique
Single English Speaking FastSpeech
Transformateur de haut-parleurs multiples
Single italien haut-parleur fastspeech
Transformateur de haut-parleur mandarin unique
Haut-parleur de mandarin unique FastSpeech
Transformateur de haut-parleur multi-japonais
Modèles de haut-parleurs anglais uniques avec Wavegan parallèle
FastSpeech basé sur la distillation en anglais unique unique

Vous pouvez télécharger tous les modèles prélevés et des échantillons générés:

Tous les modèles E2E-TTS pré-formés
Tous les échantillons générés

Notez que dans les échantillons générés, nous utilisons les vocodeurs suivants: Griffin-LIM ( GL ), WAVENET VOCODER ( WAVENET ), Parallel Wavegan ( ParallelWavegan ) et Melgan ( Melgan ). Les vocodeurs neuronaux sont basés sur les référentiels suivants.

Kan-Bayashi / ParallelWavegan: parallèle Wavegan / Melgan / Multi-Band Melgan
R9Y9 / WAVENET_VOCODER: Mélange 16 bits de logistique WAVENET VOCODER
Kan-Bayashi / PytorchwavenEtVoDer: 8 bits softmax wavenet vocoder avec la mise en forme du bruit

Si vous souhaitez construire votre propre vocodeur neuronal, veuillez vérifier les référentiels ci-dessus. Kan-Bayashi / ParallelWavegan fournit le manuel sur la façon de décoder les fonctionnalités du modèle ESPNET-TTS avec des vocodeurs neuronaux. Veuillez le vérifier.

Ici, nous énumérons tous les vocodeurs neuronaux pré-formés. Veuillez télécharger et profiter de la génération de discours de haute qualité!

Lien de modèle	Égouter	FS [Hz]	Mel Range [Hz]	Fft / shift / win [pt]	Type de modèle
ljspeech.wavenet.softmax.ns.v1	En	22.05K	Aucun	1024/256 / Aucun	Softmax wavenet
ljSpeech.wavenet.mol.v1	En	22.05K	Aucun	1024/256 / Aucun	Mol Wavenet
ljSpeech.Parallel_wavegan.v1	En	22.05K	Aucun	1024/256 / Aucun	Wavegan parallèle
ljSpeech.wavenet.mol.v2	En	22.05K	80-7600	1024/256 / Aucun	Mol Wavenet
ljSpeech.Parallel_wavegan.v2	En	22.05K	80-7600	1024/256 / Aucun	Wavegan parallèle
ljSpeech.melgan.v1	En	22.05K	80-7600	1024/256 / Aucun	Melgan
ljSpeech.melgan.v3	En	22.05K	80-7600	1024/256 / Aucun	Melgan
libritts.wavenet.mol.v1	En	24k	Aucun	1024/256 / Aucun	Mol Wavenet
JSUT.WAVENET.MOL.V1	JP	24k	80-7600	2048/300/1200	Mol Wavenet
JSUT.PARALLEL_WAVEGAN.V1	JP	24k	80-7600	2048/300/1200	Wavegan parallèle
CSMSC.WAVENET.MOL.V1	Zh	24k	80-7600	2048/300/1200	Mol Wavenet
CSMSCc.Parallel_wavegan.v1	Zh	24k	80-7600	2048/300/1200	Wavegan parallèle

Si vous souhaitez utiliser les vocodeurs pré-formés ci-dessus, veuillez correspondre exactement à la fonctionnalité avec eux.

Démo TTS

Espnet2

Vous pouvez essayer la démo en temps réel dans Google Colab. Veuillez accéder au cahier à partir du bouton suivant et profiter de la synthèse en temps réel!

Démo TTS en temps réel avec ESPNET2

Des modèles anglais, japonais et mandarin sont disponibles dans la démo.

ESPNET1

Remarque: nous allons sur le développement basé sur ESPNET2 pour TTS. Veuillez vérifier la dernière démo dans la démo ESPNET2 ci-dessus.

Vous pouvez essayer la démo en temps réel dans Google Colab. Veuillez accéder au cahier à partir du bouton suivant et profiter de la synthèse en temps réel.

Démo TTS en temps réel avec ESPNET1

Nous fournissons également un script shell pour effectuer la synthèse. Allez dans un répertoire de recettes et exécutez utils/synth_wav.sh comme suit:

 # Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt

# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt

Vous pouvez modifier le modèle pré-formé comme suit:

synth_wav.sh --models ljspeech.fastspeech.v1 example.txt

La synthèse des formes d'onde est réalisée avec l'algorithme Griffin-LIM et les vocodeurs neuronaux (Wavenet et ParallelWavegan). Vous pouvez modifier le modèle de vocodeur pré-formé comme suit:

synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt

Wavenet Vocoder offre une parole de très haute qualité, mais il faut du temps pour générer.

Voir plus de détails ou des modèles disponibles via --help .

synth_wav.sh --help

Résultats VC

développer

Transformateur et VC à base de tacotron2

Vous pouvez écouter quelques échantillons sur la page Web de démonstration.

Cascade ASR + TTS comme l'un des systèmes de base de VCC2020

Le défi de conversion vocale 2020 (VCC2020) adopte ESPNET pour créer un système de base basé sur de bout en bout. Dans VCC2020, l'objectif est une VC intra / cross-linguale non parallèle. Vous pouvez télécharger des échantillons convertis du système de base Cascade ASR + TTS ici.

Résultats de SLU

développer

Nous énumérons les performances sur diverses tâches et ensembles de données SLU en utilisant la métrique rapportée dans le document de jeu de données d'origine

Tâche	Ensemble de données	Métrique	Résultat	Modèle pré-formé
Classification d'intention	SLURP	Accrocheur	86.3	lien
Classification d'intention	FSC	Accrocheur	99.6	lien
Classification d'intention	Ensemble de haut-parleurs FSC Unseen	Accrocheur	98.6	lien
Classification d'intention	Ensemble d'énoncés invisible FSC	Accrocheur	86.4	lien
Classification d'intention	Ensemble de haut-parleurs FSC Challenge	Accrocheur	97.5	lien
Classification d'intention	Ensemble d'énoncés FSC Challenge	Accrocheur	78.5	lien
Classification d'intention	Cale	F1	91.7	lien
Classification d'intention	Grabo (NL)	Accrocheur	97.2	lien
Classification d'intention	Cat Slu Map (Zn)	Accrocheur	78.9	lien
Classification d'intention	Commandes de la parole Google	Accrocheur	98.4	lien
Remplissage de créneaux	SLURP	SLU-F1	71.9	lien
Classification de l'acte de dialogue	Standard	Accrocheur	67.5	lien
Classification de l'acte de dialogue	JDCinal (JP)	Accrocheur	67.4	lien
Reconnaissance des émotions	Iemocap	Accrocheur	69.4	lien
Reconnaissance des émotions	swbd_sentiment	Macro f1	61.4	lien
Reconnaissance des émotions	Slue_Voxceleb	Macro f1	44.0	lien

Si vous souhaitez vérifier les résultats des autres recettes, veuillez vérifier egs2/<name_of_recipe>/asr1/RESULTS.md .

Démo de segmentation CTC

ESPNET1

La segmentation CTC détermine les segments d'énoncé dans les fichiers audio. Les segments d'énoncés alignés constituent les étiquettes des ensembles de données de parole.

En tant que démo, nous alignons le début et la fin des énoncés dans le fichier audio ctc_align_test.wav , en utilisant l'exemple de script utils/asr_align_wav.sh . Pour la préparation, configurez un répertoire de données:

 cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml

cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF

Ici, utt_text est le fichier contenant la liste des énoncés. Choisissez un modèle ASR pré-formé qui comprend une couche CTC pour trouver des segments d'énoncé:

 # pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf

../../../utils/asr_align_wav.sh 
    --models ${model} 
    --align_dir ${align_dir} 
    --align_config ${align_dir} /align.yaml 
    ${wav} ${align_dir} /utt_text

Des segments sont écrits sur aligned_segments comme une liste de noms de fichiers / énoncés, de démarrage de l'énoncé et de fin en secondes, et un score de confiance. Le score de confiance est une probabilité dans l'espace logarithmique qui indique à quel point l'énoncé a été aligné. Si nécessaire, supprimez les mauvaises énoncés:

min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments

Le script de démonstration utils/ctc_align_wav.sh utilise un modèle ASR déjà pré-formé (voir la liste ci-dessus pour plus de modèles). Il est recommandé d'utiliser des modèles avec des encodeurs basés sur RNN (tels que BSTMP) pour aligner de gros fichiers audio; Plutôt que d'utiliser des modèles de transformateurs avec une consommation de mémoire élevée sur des données audio plus longues. Le taux d'échantillonnage de l'audio doit être cohérent avec celui des données utilisées dans la formation; Ajustez avec sox si nécessaire. Une recette d'exemple complet est dans egs/tedlium2/align1/ .

Espnet2

La segmentation CTC détermine les segments d'énoncé dans les fichiers audio. Les segments d'énoncés alignés constituent les étiquettes des ensembles de données de parole.

En tant que démo, nous alignons le début et la fin des énoncés dans le fichier audio ctc_align_test.wav . Cela peut être fait directement à partir de la ligne de commande Python ou en utilisant le script espnet2/bin/asr_align.py .

À partir de l'interface de ligne de commande Python:

 # load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT

L'alignement fonctionne également avec des fragments du texte. Pour cela, définissez l'option gratis_blank qui permet de sauter des sections audio non liées sans pénalité. Il est également possible d'omettre les noms d'énoncé au début de chaque ligne en définissant kaldi_style_text à false.

 aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT

Le script espnet2/bin/asr_align.py utilise une interface similaire. Pour aligner les énoncés:

 # ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT

La sortie du script peut être redirigé vers un fichier segments en ajoutant les --output segments argumentaires. Chaque ligne contient le nom de fichier / énoncé, le début de l'énoncé et la fin des temps en secondes, et un score de confiance; éventuellement également le texte de l'énoncé. Le score de confiance est une probabilité dans l'espace logarithmique qui indique à quel point l'énoncé a été aligné. Si nécessaire, supprimez les mauvaises énoncés:

min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments

Voir la documentation du module pour plus d'informations. Il est recommandé d'utiliser des modèles avec des encodeurs basés sur RNN (tels que BSTMP) pour aligner de gros fichiers audio; Plutôt que d'utiliser des modèles de transformateurs qui ont une consommation de mémoire élevée sur des données audio plus longues. Le taux d'échantillonnage de l'audio doit être cohérent avec celui des données utilisées dans la formation; Ajustez avec sox si nécessaire.

De plus, nous pouvons utiliser cet outil pour fournir des informations de segmentation au niveau des jetons si nous préparons une liste de jetons au lieu de ceux des énoncés dans le fichier text . Voir la discussion dans # 4278 (commentaire).

Citations

 @inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
    title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
    author = "Inaguma, Hirofumi  and
      Kiyono, Shun  and
      Duh, Kevin  and
      Karita, Shigeki  and
      Yalta, Nelson  and
      Hayashi, Tomoki  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
    pages = "302--311",
}
@article{hayashi2021espnet2,
  title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2110.07840},
  year={2021}
}
@inproceedings{li2020espnet,
  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
  author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
  booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  pages={785--792},
  year={2021},
  organization={IEEE},
}
@inproceedings{arora2021espnet,
  title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
  author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
  booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7167--7171},
  year={2022},
  organization={IEEE}
}
@inproceedings{shi2022muskits,
  author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
  title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
  year={2022},
  booktitle={Proceedings of Interspeech},
  pages={4277-4281},
  url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
  author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
  title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
  year=2022,
  booktitle={Proc. Interspeech 2022},
  pages={5458--5462},
}
@inproceedings{gao2023euro,
  title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
  author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}
@inproceedings{peng2023reproducing,
  title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
  author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@inproceedings{sharma2023espnet,
  title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
  author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@article{jung2024espnet,
  title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
  author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
  journal={Proc. Interspeech 2024},
  year={2024}
}
@inproceedings{yan-etal-2023-espnet,
    title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
    author = "Yan, Brian  and
      Shi, Jiatong  and
      Tang, Yun  and
      Inaguma, Hirofumi  and
      Peng, Yifan  and
      Dalmia, Siddharth  and
      Pol{'a}k, Peter  and
      Fernandes, Patrick  and
      Berrebbi, Dan  and
      Hayashi, Tomoki  and
      Zhang, Xiaohui  and
      Ni, Zhaoheng  and
      Hira, Moto  and
      Maiti, Soumi  and
      Pino, Juan  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    year = "2023",
    publisher = "Association for Computational Linguistics",
    pages = "400--411",
}

Développer

Informations supplémentaires

Version version 202409
Type Autre code source
Date de mise à jour 2025-02-02
taille 23.14MB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout