Descarga espnet - Descarga del código fuente espnet

espnet

Otro código fuente

version 202409

Descargar

Ubuntu/Python3.11/Pip Ubuntu/Python3.10/conda Debian11/python3.10/conda Windows/Python3.10/Pip MacOS/Python3.10/Pip macOS/Python3.10/conda

Docios | Ejemplo | Ejemplo (ESPNet2) | Docker | Computadora portátil

ESPNet es un conjunto de herramientas de procesamiento de voz de extremo a extremo que cubre el reconocimiento de voz de extremo a extremo, el texto a la expresión, la traducción del habla, la mejora del habla, la diario de altavoces, la comprensión del lenguaje hablado, etc. ESPNet utiliza Pytorch como motor de aprendizaje profundo y también sigue el procesamiento de datos de estilo Kaldi, la extracción/formato de características y las recetas para proporcionar una configuración completa para varios experimentos de procesamiento de voz.

Serie de tutorial

Tutorial de 2019 en Interspeech
- Material
Tutorial 2021 en CMU
- Video en línea
- Material
Tutorial 2022 en CMU
- Uso de ESPNet (ASR como ejemplo)
  - Video en línea
  - Material
- Agregue nuevos modelos/tareas a ESPNet
  - Video en línea
  - Material

Características clave

Receta completa al estilo kaldi

Números de soporte de recetas ASR (WSJ, shitderboard, Chime-4/5, Librispeech, TED, CSJ, AMI, HKUST, VOXFORGE, Reverb, Gigaspeech, etc.)
Números de soporte de recetas TTS de manera similar a la receta ASR (LJSPEECH, Libritts, M-Cailabs, etc.)
Números de apoyo de recetas ST (Fisher-Calhome Spanish, Libri-Trans, IWSLT'18, How2, Must-C, MBoshi-French, etc.)
Números de soporte de recetas MT (IWSLT'14, IWSLT'16, las recetas de ST anteriores, etc.)
Números de soporte de recetas SLU (mapas CATSLU, FSC, Grabo, Iemocap, JDCinal, Snips, Slurp, SWBD-DA, etc.)
Números de soporte de recetas SE/SS (DNS-IS2020, Librimix, SMS-WSJ, VCTK-Noisyreverb, Wham!, Whamr!, WSJ-2Mix, etc.)
Receta de conversión de voz de soporte (línea de base VCC2020)
Receta de diarización de altavoces de soporte (mini_librispeech, Librimix)
Apoya la receta de síntesis de voz de canto (OFUTON_P_UTAGOE_DB, OPENCPOP, M4SINGER, etc.)

ASR: reconocimiento automático de voz

Rendimiento de última generación en varios puntos de referencia ASR (comparables/superiores a DNN/HMM y CTC híbridos)
CTC híbrido/ASR de extremo a extremo basado en la atención
- Entrenamiento rápido/preciso con CTC/Entrenamiento multitarea de atención
- CTC/decodificación de la articulación de atención para aumentar la decodificación de alineación monotónica
- Codador: CNN + Birnn (LSTM/GRU) de tipo VGG (LSTM/GRU), submuestreo BIRNN (LSTM/GRU), Transformador, Conformador, Branchformer o Branchformer electrónico
- Decoder: RNN (LSTM/Gru), Transformer o S4
Atención: atención de flash, producto de punto, atención consciente de la ubicación, variantes de múltiples cabezas
Incorporar rnnlm/lstmlm/transformerlm/n-gram entrenado solo con datos de texto
Decodificación de GPU por lotes
Aumento de datos
ASR de extremo a extremo basado en transductor
- Arquitectura:
  - Codador personalizado de admitir RNN, conformador, Branchformer (con variantes), 1D Conv / TDNN.
  - Decoder con parámetros compartidos a través de bloques que admiten RNN, estado sin estado con Conv, Mega y RWKV.
  - Pre-Engoder: VGG2L o Conv2D disponible.
- Algoritmos de búsqueda:
  - Búsqueda codiciosa limitada a una emisión de TimeStep.
  - Algoritmo de búsqueda de haz predeterminado [Graves, 2012] sin búsqueda de prefijo.
  - Decodificación sincrónica de longitud de alineación [Saon et al., 2020].
  - Tiempo de decodificación síncrona [Saon et al., 2020].
  - Búsqueda de haz restringida N-pase modificada de [Kim et al., 2020].
  - Búsqueda de expansión adaptativa modificada basada en [Kim et al., 2021] y NSC.
- Características:
  - Interfaz unificada para el reconocimiento de voz fuera de línea y transmisión.
  - Aprendizaje de varias tareas con varias pérdidas auxiliares:
    - Encoder: CTC, transductor auxiliar y divergencia simétrica de KL.
    - Decodificador: entropía cruzada con suavizado de etiqueta.
  - Transfiera el aprendizaje con un modelo acústico y/o modelo de idioma.
  - Entrenamiento con método de regularización de FastEmit [Yu et al., 2021].
Consulte la página del tutorial para obtener documentación completa.
Segmentación de CTC
Modelo no autorgresivo basado en Mask-CTC
Ejemplos ASR para apoyar la documentación del lenguaje en peligro de extinción (consulte EGS/Puebla_NAHUATL y EGS/YOLOXOCHITL_MIXTEC) para más detalles)
WAV2VEC2.0 Modelo previamente capacitado como codificador, importado de Fairseq.
Representaciones de aprendizaje auto-supervisadas como características, utilizando modelos aguas arriba en S3PRL en frontend.
- Establecer frontend en s3prl
- Seleccione cualquier modelo ascendente configurando el frontend_conf en el nombre correspondiente.
Aprendizaje de transferencia:
- Uso fácil y transferencias de modelos previamente entrenados por su grupo o modelos de ESPNet abrazando el repositorio de cara.
- Documentación y ejemplo de juguete ejecutable en Colab.
Transformador/conformador de transmisión ASR con búsqueda de haz sincrónico en bloques.
Autoenvisión restringida basada en Longformer como codificador para secuencias largas
Modelo Operai Whisper, ASR robusto basado en el aprendizaje multitarea a gran escala y débilmente supervisado

Demostración

Demostración de ASR en tiempo real con ESPNET2
Demostración web de Gradio en espacios faciales para abrazos. Mira la demostración web
Transformador de transmisión ASR Demo local con ESPNET2.

TTS: texto a voz

Arquitectura
- Tacotrón2
- Transformer-TTS
- Espacios rápidos
- FastSpeech2
- Conformador FastSpeech y FastSpeech2
- Vits
- CHORROS
Extensión múltiple y de varios idiomas
- Incrustación de altavoces previamente capacitado (por ejemplo, vector X)
- IND ID de altavoz
- IND ID del idioma
- Incrustación de token de estilo global (GST)
- Mezcla de los incrustaciones anteriores
Entrenamiento de extremo a extremo
- Modelo de texto a onda de extremo a extremo (por ejemplo, VITS, aviones, etc.)
- Entrenamiento conjunto de Text2Mel y Vocoder
Varios soporte del idioma
- En / jp / zn / de / ru / y más ...
Integración con vocoders neurales
- Wavan paralelo
- Melgan
- Melgan de múltiples bandas
- Hifigano
- Stylemelgan
- Mezcla de los modelos anteriores

Demostración

Demostración de TTS en tiempo real con ESPNET2
Integrado para abrazar espacios faciales con Gradio. Ver demostración:

Para capacitar al vocoder neural, consulte los siguientes repositorios:

Kan-Bayashi/Parallelwavegan
r9y9/wavenet_vocoder

SE: Mejora del habla (y separación)

Mejora del habla de un solo plato
Separación del discurso de múltiples altavoces
Estructura de decodificador de codificador unificado para codificadores para el dominio del tiempo y dominio de frecuencia
- Codificador/decoder: stft/istft, convolución/transposición-convolución
- Separadores: BLSTM, Transformer, Conformador, Tasnet, DPRNN, SKIM, SVOICE, DC-CRN, DCCRN, CLUJERA DE LA RECUESTA PROFUNDA, RED DE ATRAVOR DEPARTA, FASNET, IFASNET, FORMANTORES DE BAJO NEUNALES, ETC.
Integración ASR flexible: trabajar como una tarea individual o como ASR Frontend
Fácil de importar modelos previamente capacitados del asteroide
- Se admiten los modelos previamente capacitados del asteroide como la configuración específica.

Demostración

Demostración interactiva de SE con ESPNET2
Transmisión de demostración de SE con ESPNet2

ST: Traducción del habla y MT: traducción automática

Rendimiento de vanguardia en varios puntos de referencia ST (comparable/superior a ASR y MT en cascada)
ST de extremo a extremo basado en transformadores (¡nuevo!)
MT de extremo a extremo basado en transformadores (¡nuevo!)

VC: conversión de voz

Transformador y VC paralelo basado en Tacotron2 usando el espectrograma MEL
VC de extremo a extremo basado en ASR+TTS en cascada (¡Sistema de línea de base para el desafío de conversión de voz 2020!)

SLU: comprensión del lenguaje hablado

Arquitectura
- Codificador basado en transformadores
- Codificador basado en conformadores
- Codificador basado en la sucursal
- Codificador con base de ramas electrónicos
- Decodificador basado en RNN
- Decodificador basado en transformadores
Apoya la multitarea con ASR
- Predecir tanto la intención como la transcripción ASR
Apoya la multitarea con NLU
- Modelo de 2 pases basado en el codificador de deliberación
Apoyo el uso de modelos ASR previamente capacitados
- Hubert
- WAV2VEC2
- VQ-APC
- Tera y más ...
Apoyo el uso de modelos PNL previamente capacitados
- Bert
- Mpnet y más ...
Varios soporte del idioma
- En / jp / zn / nl / y más ...
Admite el uso del contexto de expresiones anteriores
Admite el uso de otras tareas como SE de forma de tuberías
Admite dos SLU de pase que combina la demostración de la transcripción de audio y ASR
Realizar la comprensión del lenguaje hablado ruidoso utilizando un modelo de mejora del habla seguido de un modelo de comprensión del lenguaje hablado.
Realizar una comprensión de lenguaje hablado de dos pasos donde el modelo de segundo pase atiende a información acústica y semántica.
Integrado para abrazar espacios faciales con Gradio. Ver demostración de SLU en varios idiomas:

Suma: resumen del habla

Receta de resumen del habla de extremo a extremo para videos instructivos utilizando autoatencias restringidas [Sharma et al., 2022]

SVS: síntesis de voz de canto

Marco de la fusión de los almizcleros
Arquitectura
- Modelo no autorregresivo basado en RNN
- Xiaoice
- Tacotrón
- Diffsinger (en progreso)
- Visitante
- Visinger 2 (sus variaciones con diferentes vocoders-arquitectura)
Soporte de síntesis de canto multipeaker y multilingüe
- IND ID de altavoz
- IND ID del idioma
Varios soporte del idioma
- Jp / en / kr / zh
Integración estrecha con vocoders neurales (lo mismo que TTS)

SSL: aprendizaje auto-supervisado

Apoya la pre-entrenamiento de Hubert:
- Ejemplo de receta: EGS2/Librispeech/SSL1

UASR: ASR sin supervisión (Euro: ESPNet Reconocimiento sin supervisión - Frase abierta)

Arquitectura
- WAV2VEC-U (con diferentes modelos auto-supervisados)
- WAV2VEC-U 2.0 (en progreso)
Admite la decodificación de WFST basada en PrefixBeamSearch y WFST basada en K2

S2T: Speech-to-Text con modelos multilingüe multilingües de estilo Whisper

Reproduce la capacitación al estilo Whisper desde cero utilizando datos públicos: OWSM
Admite múltiples tareas en un solo modelo
- Reconocimiento de voz multilingüe
- Cualquiera a cualquier traducción del habla
- Identificación del idioma
- Predicción de marca de tiempo de nivel de nivel (segmentación)

Marco DNN

Arquitectura de red flexible gracias a Chader y Pytorch
Procesamiento front-end flexible gracias al soporte de Kaldiio y HDF5
Monitoreo basado en tensorBoard
Entrenamiento a gran escala basado en DeepSpeed

ESPNET2

Ver ESPNET2.

Independiente de Kaldi/Chainer, a diferencia de ESPNET1
Extracción de características sobre la marcha y procesamiento de texto cuando se capacita
Apoyo a distribución de DistributedDataparallel y Daraparallel
Soporte de entrenamiento de múltiples nodos e integrado con SLURM o MPI
Apoyo a la capacitación fiscada proporcionada por FairScale
Una receta de plantilla que se puede aplicar a todos los corpus
Posible entrenar cualquier tamaño de corpus sin error de memoria de la CPU
Zoológico modelo ESPNet
Integrado con Wandb

Instalación

Si tiene la intención de realizar experimentos completos, incluido el entrenamiento DNN, consulte la instalación.

Si solo necesita el módulo Python solamente:

 # We recommend you install PyTorch before installing espnet following https://pytorch.org/get-started/locally/
pip install espnet
# To install the latest
# pip install git+https://github.com/espnet/espnet
# To install additional packages
# pip install "espnet[all]"

Si usa ESPNet1, instale Chainer y Cupy.

pip install chainer==6.0.0 cupy==6.0.0    # [Option]

Es posible que deba instalar algunos paquetes según cada tarea. Preparamos varios scripts de instalación en herramientas/instaladores.

(ESPNET2) Una vez instalado, ejecute wandb login y establezca --use_wandb true para habilitar las ejecuciones de seguimiento usando W&B.

Contenedor de acopolador

Vaya a Docker/ y siga las instrucciones.

Contribución

¡Gracias por tomarse el tiempo para ESPNet! Cualquier contribución a ESPNet es bienvenida y no dude en hacer cualquier pregunta o solicitud a los problemas. Si es su primera contribución de ESPNet, siga la guía de contribución.

Resultados de ASR

expandir

Enumeramos la tasa de error de caracteres (CER) y la tasa de error de palabras (WER) de las principales tareas ASR.

Tarea	Cer (%)	Wer (%)	Modelo previamente capacitado
Aishell Dev/Test	4.6/5.1	N / A	enlace
ESPNET2 Aishell Dev/Test	4.1/4.4	N / A	enlace
Dev/prueba de voz común	1.7/1.8	2.2/2.3	enlace
CSJ eval1/eval2/eval3	5.7/3.8/4.2	N / A	enlace
ESPNET2 CSJ Eval1/Eval2/Eval3	4.5/3.3/3.6	N / A	enlace
ESPNET2 GIGASPEECH DEV/TEST	N / A	10.6/10.5	enlace
HKUST DEV	23.5	N / A	enlace
ESPNET2 HKUST DEV	21.2	N / A	enlace
Librispeech dev_clean/dev_other/test_clean/test_other	N / A	1.9/4.9/2.1/4.9	enlace
ESPNET2 Librispeech dev_clean/dev_other/test_clean/test_other	0.6/1.5/0.6/1.4	1.7/3.4/1.8/3.6	enlace
Caminete (eval2000) Callhm/SWBD	N / A	14.0/6.8	enlace
ESPNET2 Switchboard (Eval2000) Callhm/SWBD	N / A	13.4/7.3	enlace
Tedlium2 dev/test	N / A	8.6/7.2	enlace
ESPNET2 TEDLIUM2 DEV/TEST	N / A	7.3/7.1	enlace
Tedlium3 dev/test	N / A	9.6/7.6	enlace
WSJ Dev93/Eval92	3.2/2.1	7.0/4.7	N / A
ESPNET2 WSJ Dev93/Eval92	1.1/0.8	2.8/1.8	enlace

Tenga en cuenta que el rendimiento de las tareas CSJ, HKUST y Librispeech mejoró significativamente utilizando la red amplia (#UNITS = 1024) y las grandes unidades de subvenciones si es necesario informar por RWTH.

Si desea verificar los resultados de las otras recetas, consulte egs/<name_of_recipe>/asr1/RESULTS.md .

ASR Demo

expandir

Puede reconocer el discurso en un archivo WAV utilizando modelos previamente capacitados. Vaya a un directorio de recetas y ejecute utils/recog_wav.sh de la siguiente manera:

 # go to the recipe directory and source path of espnet tools
cd egs/tedlium2/asr1 && . ./path.sh
# let's recognize speech!
recog_wav.sh --models tedlium2.transformer.v1 example.wav

donde example.wav es un archivo WAV para ser reconocido. La tasa de muestreo debe ser consistente con la de los datos utilizados en la capacitación.

Los modelos previamente capacitados disponibles en el script de demostración se enumeran a continuación.

Modelo	Notas
tedlium2.rnn.v1	Transmisión de decodificación basada en VAD basado en CTC
tedlium2.rnn.v2	Decodificación de transmisión basada en VAD basado en CTC (decodificación por lotes)
tedlium2.transformer.v1	Transformador de atención de CTC de Junta-CTC entrenado en Tedlium 2
tedlium3.transformer.v1	Transformador de atención de CTC de Junta-CTC entrenado en Tedlium 3
librispeech.transformer.v1	Transformador de atención del CTC Junta-CTC entrenado en Librispeech
CommonVoice.transformer.v1	Transformador de atención de CTC de Junta-CTC entrenado en CommonVoice
csj.transformer.v1	Transformador de atención conjunta-CTC entrenado en CSJ
csj.rnn.v1	Junta-CTC ATENCIÓN VGGBLSTM entrenado en CSJ

Resultados de SE

expandir

Enumeramos los resultados de tres modelos diferentes en WSJ0-2MIX, que es uno del conjunto de datos de referencia más utilizado para la separación del habla.

Modelo	Stoi	Sar	DEG	SEÑOR
TF Masking	0.89	11.40	10.24	18.04
Convicto	0.95	16.62	15.94	25.90
Dprnn-tasnet	0.96	18.82	18.29	28.92

SE Demos

expandir

Puede probar la demostración interactiva con Google Colab. Haga clic en el siguiente botón para obtener acceso a las demostraciones.

Se basa en ESPNET2. Los modelos previamente capacitados están disponibles tanto para la mejora del habla como para las tareas de separación del habla.

Demoss de transmisión de separación del habla:

Resultados ST

expandir

Enumeramos 4 gramos de las principales tareas ST.

sistema de extremo a extremo

Tarea	Bleu	Modelo previamente capacitado
Fisher-Calhome español Fisher_test (es-> en)	51.03	enlace
Fisher-Calhome español Callhome_evltest (es-> en)	20.44	enlace
Prueba de Libri-Trans (EN-> FR)	16.70	enlace
How2 dev5 (en-> pt)	45.68	enlace
Must-C TST-Common (en-> de)	22.91	enlace
MBoshi-French Dev (FR-> MBoshi)	6.18	N / A

sistema en cascada

Tarea	Bleu	Modelo previamente capacitado
Fisher-Calhome español Fisher_test (es-> en)	42.16	N / A
Fisher-Calhome español Callhome_evltest (es-> en)	19.82	N / A
Prueba de Libri-Trans (EN-> FR)	16.96	N / A
How2 dev5 (en-> pt)	44.90	N / A
Must-C TST-Common (en-> de)	23.65	N / A

Si desea verificar los resultados de las otras recetas, consulte egs/<name_of_recipe>/st1/RESULTS.md .

ST Demo

expandir

( ¡Nuevo! ) Hicimos una nueva demostración E2E-ST + TTS en tiempo real en Google Colab. ¡Acceda al cuaderno desde el siguiente botón y disfrute de la traducción en tiempo real de voz a voz!

Puede traducir el discurso en un archivo WAV utilizando modelos previamente capacitados. Vaya a un directorio de recetas y ejecute utils/translate_wav.sh de la siguiente manera:

 # Go to recipe directory and source path of espnet tools
cd egs/fisher_callhome_spanish/st1 && . ./path.sh
# download example wav file
wget -O - https://github.com/espnet/espnet/files/4100928/test.wav.tar.gz | tar zxvf -
# let's translate speech!
translate_wav.sh --models fisher_callhome_spanish.transformer.v1.es-en test.wav

donde test.wav es un archivo wav a traducir. La tasa de muestreo debe ser consistente con la de los datos utilizados en la capacitación.

Los modelos previamente capacitados disponibles en el script de demostración se enumeran como se muestra a continuación.

Modelo	Notas
Fisher_Callhome_Spanish.Transformer.V1	Transformer-St entrenado en Fisher-Calhome español es-> en

Resultados de MT

expandir

Tarea	Bleu	Modelo previamente capacitado
Fisher-Calhome español Fisher_test (es-> en)	61.45	enlace
Fisher-Calhome español Callhome_evltest (es-> en)	29.86	enlace
Prueba de Libri-Trans (EN-> FR)	18.09	enlace
How2 dev5 (en-> pt)	58.61	enlace
Must-C TST-Common (en-> de)	27.63	enlace
Iwslt'14 test2014 (en-> de)	24.70	enlace
Iwslt'14 test2014 (De-> en)	29.22	enlace
Iwslt'14 test2014 (De-> en)	32.2	enlace
IWSLT'16 TEST2014 (EN-> DE)	24.05	enlace
IWSLT'16 TEST2014 (DE-> EN)	29.13	enlace

Resultados de TTS

ESPNET2

Puede escuchar las muestras generadas en la siguiente URL.

ESPNET2 TTS generó muestras

Tenga en cuenta que en la generación, usamos Griffin-Lim ( wav/ ) y Wavan Paralelo ( wav_pwg/ ).

Puede descargar modelos previamente capacitados a través de espnet_model_zoo .

Zoológico modelo ESPNet
Lista de modelos previamente capacitada

Puede descargar vocoders previamente capacitados a través de kan-bayashi/ParallelWaveGAN .

Kan-Bayashi/Parallelwavegan
Lista de vocoder previamente capacitada

ESPNET1

Nota: Nos estamos moviendo en el desarrollo basado en ESPNET2 para TTS. Verifique los últimos resultados en los resultados de ESPNet2 anteriores.

Puede escuchar nuestras muestras en demo HP ESPNET-TTS-Sample. Aquí enumeramos algunos notables:

Hablante de inglés único tacotron2
Altavoz japonés tacotron2
Otros otro hablante de idioma Tacotron2
Hablante de múltiples ingleses tacotron2
Transformador de hablante de inglés único
Speaker de inglés único FastSpeech
Transformador de hablantes de múltiples ingleses
Altavoz italiano soltero FastSpeech
Transformador de altavoces de mandarín único
Altavoz de mandarín único FastSpeech
Transformador de altavoces múltiples japoneses
Modelos de hablantes de inglés único con Wavegan paralelo
Conocimiento de un solo hablante inglés Conocimiento de la destilación basada en la destilación

Puede descargar todos los modelos previamente capacitados y muestras generadas:

Todos los modelos E2E-TTS previamente entrenados
Todas las muestras generadas

Tenga en cuenta que en las muestras generadas, usamos los siguientes vocoders: Griffin-Lim ( GL ), Vocoder de Wavenet ( Wavenet ), Parallel Wavegan ( Parallelwavegan ) y Melgan ( Melgan ). Los vocoders neurales se basan en los siguientes repositorios.

Kan-Bayashi / Parallelwavegan: paralelo Wavan / Melgan / Multiband Melgan
R9Y9/Wavenet_Vocoder: Mezcla de 16 bits de Vocoder de Wavenet Logistics
Kan-Bayashi/PytorchwavenetVocoder: Vocoder de Wavenet Softmax de 8 bits con la configuración del ruido

Si desea construir su propio vocoder neural, consulte los repositorios anteriores. Kan-Bayashi/Parallelwavegan proporciona el manual sobre cómo decodificar las características del modelo ESPNET-TTS con vocoders neurales. Por favor, revise.

Aquí enumeramos todos los vocoders neurales previamente entrenados. ¡Descargue y disfrute de la generación de discursos de alta calidad!

Enlace modelo	Lang	FS [HZ]	Mel Range [Hz]	FFT / Shift / Win [PT]	Tipo de modelo
ljspeech.wavenet.softmax.ns.v1	Interno	22.05k	Ninguno	1024 /256 / ninguno	Softmax Wavenet
ljspeech.wavenet.mol.v1	Interno	22.05k	Ninguno	1024 /256 / ninguno	Mol Wavenet
ljspeech.parallel_wavegan.v1	Interno	22.05k	Ninguno	1024 /256 / ninguno	Wavan paralelo
ljspeech.wavenet.mol.v2	Interno	22.05k	80-7600	1024 /256 / ninguno	Mol Wavenet
ljspech.parallel_wavegan.v2	Interno	22.05k	80-7600	1024 /256 / ninguno	Wavan paralelo
ljspeech.melgan.v1	Interno	22.05k	80-7600	1024 /256 / ninguno	Melgan
ljspeech.melgan.v3	Interno	22.05k	80-7600	1024 /256 / ninguno	Melgan
libritts.wavenet.mol.v1	Interno	24k	Ninguno	1024 /256 / ninguno	Mol Wavenet
jsut.wavenet.mol.v1	JP	24k	80-7600	2048/300/1200	Mol Wavenet
jsut.parallel_wavegan.v1	JP	24k	80-7600	2048/300/1200	Wavan paralelo
csmsc.wavenet.mol.v1	Zh	24k	80-7600	2048/300/1200	Mol Wavenet
csmsc.parallel_wavegan.v1	Zh	24k	80-7600	2048/300/1200	Wavan paralelo

Si desea utilizar los vocoders previamente capacitados anteriores, coincida exactamente con la configuración de características con ellos.

TTS Demo

ESPNET2

Puede probar la demostración en tiempo real en Google Colab. ¡Acceda al cuaderno desde el siguiente botón y disfrute de la síntesis en tiempo real!

Demostración de TTS en tiempo real con ESPNET2

Los modelos ingleses, japoneses y mandarín están disponibles en la demostración.

ESPNET1

Nota: Nos estamos moviendo en el desarrollo basado en ESPNET2 para TTS. Consulte la última demostración en la demostración de ESPNet2 anterior.

Puede probar la demostración en tiempo real en Google Colab. Acceda al cuaderno desde el siguiente botón y disfrute de la síntesis en tiempo real.

Demostración de TTS en tiempo real con ESPNET1

También proporcionamos un script de shell para realizar síntesis. Vaya a un directorio de recetas y ejecute utils/synth_wav.sh de la siguiente manera:

 # Go to recipe directory and source path of espnet tools
cd egs/ljspeech/tts1 && . ./path.sh
# We use an upper-case char sequence for the default model.
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example.txt
# let's synthesize speech!
synth_wav.sh example.txt

# Also, you can use multiple sentences
echo " THIS IS A DEMONSTRATION OF TEXT TO SPEECH. " > example_multi.txt
echo " TEXT TO SPEECH IS A TECHNIQUE TO CONVERT TEXT INTO SPEECH. " >> example_multi.txt
synth_wav.sh example_multi.txt

Puede cambiar el modelo previamente capacitado de la siguiente manera:

synth_wav.sh --models ljspeech.fastspeech.v1 example.txt

La síntesis de la forma de onda se realiza con el algoritmo Griffin-Lim y los vocoders neurales (Wavenet y Parallelwavegan). Puede cambiar el modelo de vocoder previamente capacitado de la siguiente manera:

synth_wav.sh --vocoder_models ljspeech.wavenet.mol.v1 example.txt

Wavenet Vocoder proporciona un discurso de muy alta calidad, pero lleva tiempo generar.

Consulte más detalles o modelos disponibles a través de --help .

synth_wav.sh --help

Resultados de VC

expandir

Transformer y VC basado en Tacotron2

Puede escuchar algunas muestras en la página web de demostración.

Cascade ASR+TTS como uno de los sistemas de referencia de VCC2020

El desafío de conversión de voz 2020 (VCC2020) adopta ESPNet para construir un sistema de referencia basado en extremo a extremo. En VCC2020, el objetivo es intra/VC no paralelo interlingüístico. Puede descargar muestras convertidas del sistema de referencia Cascade ASR+TTS aquí.

Resultados de SLU

expandir

Enumeramos el rendimiento en varias tareas y conjuntos de datos de SLU utilizando la métrica reportada en el documento del conjunto de datos original

Tarea	Conjunto de datos	Métrico	Resultado	Modelo previamente capacitado
Clasificación de intención	SORBER	Accidentista	86.3	enlace
Clasificación de intención	FSC	Accidentista	99.6	enlace
Clasificación de intención	Set de altavoces invisible de FSC	Accidentista	98.6	enlace
Clasificación de intención	FSC set de expresión invisible	Accidentista	86.4	enlace
Clasificación de intención	Conjunto de altavoces FSC Challenge	Accidentista	97.5	enlace
Clasificación de intención	FSC Challenge Set de expresión	Accidentista	78.5	enlace
Clasificación de intención	Chisporrotear	F1	91.7	enlace
Clasificación de intención	Grabo (NL)	Accidentista	97.2	enlace
Clasificación de intención	Mapa de slues de gato (Zn)	Accidentista	78.9	enlace
Clasificación de intención	Comandos de discurso de Google	Accidentista	98.4	enlace
Relleno de ranura	SORBER	SLU-F1	71.9	enlace
Clasificación de la Ley de diálogo	Tablero de conmutadores	Accidentista	67.5	enlace
Clasificación de la Ley de diálogo	JDCinal (JP)	Accidentista	67.4	enlace
Reconocimiento de emociones	Iemocap	Accidentista	69.4	enlace
Reconocimiento de emociones	swbd_sentiment	Macro F1	61.4	enlace
Reconocimiento de emociones	slue_voxceleb	Macro F1	44.0	enlace

Si desea verificar los resultados de las otras recetas, verifique egs2/<name_of_recipe>/asr1/RESULTS.md .

Demostración de segmentación de CTC

ESPNET1

La segmentación de CTC determina los segmentos de expresión dentro de los archivos de audio. Los segmentos de enunciado alineados constituyen las etiquetas de los conjuntos de datos del habla.

Como demostración, alineamos el inicio y el final de las expresiones dentro del archivo de audio ctc_align_test.wav , utilizando el script de ejemplo utils/asr_align_wav.sh . Para la preparación, configure un directorio de datos:

 cd egs/tedlium2/align1/
# data directory
align_dir=data/demo
mkdir -p ${align_dir}
# wav file
base=ctc_align_test
wav=../../../test_utils/ ${base} .wav
# recipe files
echo " batchsize: 0 " > ${align_dir} /align.yaml

cat << EOF > ${align_dir} /utt_text
${base} THE SALE OF THE HOTELS
${base} IS PART OF HOLIDAY'S STRATEGY
${base} TO SELL OFF ASSETS
${base} AND CONCENTRATE
${base} ON PROPERTY MANAGEMENT
EOF

Aquí, utt_text es el archivo que contiene la lista de expresiones. Elija un modelo ASR previamente entrenado que incluya una capa CTC para encontrar segmentos de expresión:

 # pre-trained ASR model
model=wsj.transformer_small.v1
mkdir ./conf && cp ../../wsj/asr1/conf/no_preprocess.yaml ./conf

../../../utils/asr_align_wav.sh 
    --models ${model} 
    --align_dir ${align_dir} 
    --align_config ${align_dir} /align.yaml 
    ${wav} ${align_dir} /utt_text

Los segmentos se escriben en aligned_segments como una lista de nombres de archivos/enunciados, inicio y finalización de la expresión en segundos, y un puntaje de confianza. El puntaje de confianza es una probabilidad en el espacio de registro que indica qué tan bien se alineó la expresión. Si es necesario, elimine las malas expresiones:

min_confidence_score=-5
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' ${align_dir} /aligned_segments

El script de demostración utils/ctc_align_wav.sh utiliza un modelo ASR ya pre-entrenado (consulte la lista anterior para obtener más modelos). Se recomienda utilizar modelos con codificadores basados en RNN (como BLSTMP) para alinear grandes archivos de audio; en lugar de usar modelos de transformadores con un alto consumo de memoria en datos de audio más largos. La frecuencia de muestreo del audio debe ser consistente con la de los datos utilizados en la capacitación; Ajuste con sox si es necesario. Una receta de ejemplo completa está en egs/tedlium2/align1/ .

ESPNET2

La segmentación de CTC determina los segmentos de expresión dentro de los archivos de audio. Los segmentos de enunciado alineados constituyen las etiquetas de los conjuntos de datos del habla.

Como demostración, alineamos el inicio y el final de las expresiones dentro del archivo de audio ctc_align_test.wav . Esto se puede hacer directamente desde la línea de comando Python o usando el script espnet2/bin/asr_align.py .

Desde la interfaz de la línea de comandos de Python:

 # load a model with character tokens
from espnet_model_zoo . downloader import ModelDownloader
d = ModelDownloader ( cachedir = "./modelcache" )
wsjmodel = d . download_and_unpack ( "kamo-naoyuki/wsj" )
# load the example file included in the ESPnet repository
import soundfile
speech , rate = soundfile . read ( "./test_utils/ctc_align_test.wav" )
# CTC segmentation
from espnet2 . bin . asr_align import CTCSegmentation
aligner = CTCSegmentation ( ** wsjmodel , fs = rate )
text = """
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE ON PROPERTY MANAGEMENT
"""
segments = aligner ( speech , text )
print ( segments )
# utt1 utt 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 utt 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 utt 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 utt 4.20 6.10 -0.4899 AND CONCENTRATE ON PROPERTY MANAGEMENT

La alineación también funciona con fragmentos del texto. Para esto, establezca la opción gratis_blank que permite omitir secciones de audio no relacionadas sin penalización. También es posible omitir los nombres de expresión al comienzo de cada línea configurando kaldi_style_text en falso.

 aligner . set_config ( gratis_blank = True , kaldi_style_text = False )
text = [ "SALE OF THE HOTELS" , "PROPERTY MANAGEMENT" ]
segments = aligner ( speech , text )
print ( segments )
# utt_0000 utt 0.37 1.72 -2.0651 SALE OF THE HOTELS
# utt_0001 utt 4.70 6.10 -5.0566 PROPERTY MANAGEMENT

El script espnet2/bin/asr_align.py utiliza una interfaz similar. Para alinear las expresiones:

 # ASR model and config files from pre-trained model (e.g., from cachedir):
asr_config= < path-to-model > /config.yaml
asr_model= < path-to-model > /valid. * best.pth
# prepare the text file
wav= " test_utils/ctc_align_test.wav "
text= " test_utils/ctc_align_text.txt "
cat << EOF > ${text}
utt1 THE SALE OF THE HOTELS
utt2 IS PART OF HOLIDAY'S STRATEGY
utt3 TO SELL OFF ASSETS
utt4 AND CONCENTRATE
utt5 ON PROPERTY MANAGEMENT
EOF
# obtain alignments:
python espnet2/bin/asr_align.py --asr_train_config ${asr_config} --asr_model_file ${asr_model} --audio ${wav} --text ${text}
# utt1 ctc_align_test 0.26 1.73 -0.0154 THE SALE OF THE HOTELS
# utt2 ctc_align_test 1.73 3.19 -0.7674 IS PART OF HOLIDAY'S STRATEGY
# utt3 ctc_align_test 3.19 4.20 -0.7433 TO SELL OFF ASSETS
# utt4 ctc_align_test 4.20 4.97 -0.6017 AND CONCENTRATE
# utt5 ctc_align_test 4.97 6.10 -0.3477 ON PROPERTY MANAGEMENT

La salida del script se puede redirigir a un archivo segments agregando el argumento --output segments . Cada línea contiene el nombre del archivo/enunciado, el inicio de la expresión y los tiempos de finalización en segundos, y un puntaje de confianza; Opcionalmente también el texto de la expresión. El puntaje de confianza es una probabilidad en el espacio de registro que indica qué tan bien se alineó la expresión. Si es necesario, elimine las malas expresiones:

min_confidence_score=-7
# here, we assume that the output was written to the file `segments`
awk -v ms= ${min_confidence_score} ' { if ($5 > ms) {print} } ' segments

Consulte la documentación del módulo para obtener más información. Se recomienda utilizar modelos con codificadores basados en RNN (como BLSTMP) para alinear grandes archivos de audio; En lugar de usar modelos de transformadores que tienen un alto consumo de memoria en datos de audio más largos. La frecuencia de muestreo del audio debe ser consistente con la de los datos utilizados en la capacitación; Ajuste con sox si es necesario.

Además, podemos usar esta herramienta para proporcionar información de segmentación a nivel de token si preparamos una lista de tokens en lugar de la de las expresiones en el archivo text . Vea la discusión en #4278 (comentario).

Citas

 @inproceedings{watanabe2018espnet,
  author={Shinji Watanabe and Takaaki Hori and Shigeki Karita and Tomoki Hayashi and Jiro Nishitoba and Yuya Unno and Nelson {Enrique Yalta Soplin} and Jahn Heymann and Matthew Wiesner and Nanxin Chen and Adithya Renduchintala and Tsubasa Ochiai},
  title={{ESPnet}: End-to-End Speech Processing Toolkit},
  year={2018},
  booktitle={Proceedings of Interspeech},
  pages={2207--2211},
  doi={10.21437/Interspeech.2018-1456},
  url={http://dx.doi.org/10.21437/Interspeech.2018-1456}
}
@inproceedings{hayashi2020espnet,
  title={{Espnet-TTS}: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Inoue, Katsuki and Yoshimura, Takenori and Watanabe, Shinji and Toda, Tomoki and Takeda, Kazuya and Zhang, Yu and Tan, Xu},
  booktitle={Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7654--7658},
  year={2020},
  organization={IEEE}
}
@inproceedings{inaguma-etal-2020-espnet,
    title = "{ESP}net-{ST}: All-in-One Speech Translation Toolkit",
    author = "Inaguma, Hirofumi  and
      Kiyono, Shun  and
      Duh, Kevin  and
      Karita, Shigeki  and
      Yalta, Nelson  and
      Hayashi, Tomoki  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-demos.34",
    pages = "302--311",
}
@article{hayashi2021espnet2,
  title={{ESP}net2-{TTS}: Extending the edge of {TTS} research},
  author={Hayashi, Tomoki and Yamamoto, Ryuichi and Yoshimura, Takenori and Wu, Peter and Shi, Jiatong and Saeki, Takaaki and Ju, Yooncheol and Yasuda, Yusuke and Takamichi, Shinnosuke and Watanabe, Shinji},
  journal={arXiv preprint arXiv:2110.07840},
  year={2021}
}
@inproceedings{li2020espnet,
  title={{ESPnet-SE}: End-to-End Speech Enhancement and Separation Toolkit Designed for {ASR} Integration},
  author={Chenda Li and Jing Shi and Wangyou Zhang and Aswin Shanmugam Subramanian and Xuankai Chang and Naoyuki Kamo and Moto Hira and Tomoki Hayashi and Christoph Boeddeker and Zhuo Chen and Shinji Watanabe},
  booktitle={Proceedings of IEEE Spoken Language Technology Workshop (SLT)},
  pages={785--792},
  year={2021},
  organization={IEEE},
}
@inproceedings{arora2021espnet,
  title={{ESPnet-SLU}: Advancing Spoken Language Understanding through ESPnet},
  author={Arora, Siddhant and Dalmia, Siddharth and Denisov, Pavel and Chang, Xuankai and Ueda, Yushi and Peng, Yifan and Zhang, Yuekai and Kumar, Sujay and Ganesan, Karthik and Yan, Brian and others},
  booktitle={ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={7167--7171},
  year={2022},
  organization={IEEE}
}
@inproceedings{shi2022muskits,
  author={Shi, Jiatong and Guo, Shuai and Qian, Tao and Huo, Nan and Hayashi, Tomoki and Wu, Yuning and Xu, Frank and Chang, Xuankai and Li, Huazhe and Wu, Peter and Watanabe, Shinji and Jin, Qin},
  title={{Muskits}: an End-to-End Music Processing Toolkit for Singing Voice Synthesis},
  year={2022},
  booktitle={Proceedings of Interspeech},
  pages={4277-4281},
  url={https://www.isca-speech.org/archive/pdfs/interspeech_2022/shi22d_interspeech.pdf}
}
@inproceedings{lu22c_interspeech,
  author={Yen-Ju Lu and Xuankai Chang and Chenda Li and Wangyou Zhang and Samuele Cornell and Zhaoheng Ni and Yoshiki Masuyama and Brian Yan and Robin Scheibler and Zhong-Qiu Wang and Yu Tsao and Yanmin Qian and Shinji Watanabe},
  title={{ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding}},
  year=2022,
  booktitle={Proc. Interspeech 2022},
  pages={5458--5462},
}
@inproceedings{gao2023euro,
  title={{EURO: ESP}net unsupervised {ASR} open-source toolkit},
  author={Gao, Dongji and Shi, Jiatong and Chuang, Shun-Po and Garcia, Leibny Paola and Lee, Hung-yi and Watanabe, Shinji and Khudanpur, Sanjeev},
  booktitle={ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={1--5},
  year={2023},
  organization={IEEE}
}
@inproceedings{peng2023reproducing,
  title={Reproducing {W}hisper-style training using an open-source toolkit and publicly available data},
  author={Peng, Yifan and Tian, Jinchuan and Yan, Brian and Berrebbi, Dan and Chang, Xuankai and Li, Xinjian and Shi, Jiatong and Arora, Siddhant and Chen, William and Sharma, Roshan and others},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@inproceedings{sharma2023espnet,
  title={ESPnet-{SUMM}: Introducing a novel large dataset, toolkit, and a cross-corpora evaluation of speech summarization systems},
  author={Sharma, Roshan and Chen, William and Kano, Takatomo and Sharma, Ruchira and Arora, Siddhant and Watanabe, Shinji and Ogawa, Atsunori and Delcroix, Marc and Singh, Rita and Raj, Bhiksha},
  booktitle={2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)},
  pages={1--8},
  year={2023},
  organization={IEEE}
}
@article{jung2024espnet,
  title={{ESPnet-SPK}: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models},
  author={Jung, Jee-weon and Zhang, Wangyou and Shi, Jiatong and Aldeneh, Zakaria and Higuchi, Takuya and Theobald, Barry-John and Abdelaziz, Ahmed Hussen and Watanabe, Shinji},
  journal={Proc. Interspeech 2024},
  year={2024}
}
@inproceedings{yan-etal-2023-espnet,
    title = "{ESP}net-{ST}-v2: Multipurpose Spoken Language Translation Toolkit",
    author = "Yan, Brian  and
      Shi, Jiatong  and
      Tang, Yun  and
      Inaguma, Hirofumi  and
      Peng, Yifan  and
      Dalmia, Siddharth  and
      Pol{'a}k, Peter  and
      Fernandes, Patrick  and
      Berrebbi, Dan  and
      Hayashi, Tomoki  and
      Zhang, Xiaohui  and
      Ni, Zhaoheng  and
      Hira, Moto  and
      Maiti, Soumi  and
      Pino, Juan  and
      Watanabe, Shinji",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)",
    year = "2023",
    publisher = "Association for Computational Linguistics",
    pages = "400--411",
}

Expandir

Información adicional

Versión version 202409
Tipo Otro código fuente
Fecha de actualización 2025-02-02
tamaño 23.14MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo