Este repositorio es una implementación de Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) con un vocoder que funciona en tiempo real. Esta fue mi tesis de maestría.
SV2TTS es un marco de aprendizaje profundo en tres etapas. En la primera etapa, se crea una representación digital de una voz a partir de unos segundos de audio. En la segunda y tercera etapa, esta representación se utiliza como referencia para generar voz a partir de un texto arbitrario.
Vídeo de demostración (haga clic en la imagen):
URL | Designación | Título | Fuente de implementación |
---|---|---|---|
1806.04558 | SV2TTS | Transferir el aprendizaje de la verificación del hablante a la síntesis de texto a voz de varios hablantes | este repositorio |
1802.08435 | WaveRNN (vocodificador) | Síntesis de audio neuronal eficiente | acorde de grasa/WaveRNN |
1703.10135 | Tacotrón (sintetizador) | Tacotron: hacia la síntesis del habla de un extremo a otro | acorde de grasa/WaveRNN |
1710.10467 | GE2E (codificador) | Pérdida generalizada de extremo a extremo para la verificación del hablante | este repositorio |
Como todo lo demás en Deep Learning, este repositorio rápidamente se volvió obsoleto. Muchas aplicaciones SaaS (a menudo de pago) le brindarán una mejor calidad de audio que este repositorio. Si desea una solución de código abierto con alta calidad de voz:
venv
, pero esto es opcional.pip install -r requirements.txt
Los modelos previamente entrenados ahora se descargan automáticamente. Si esto no funciona para usted, puede descargarlos manualmente aquí.
Antes de descargar cualquier conjunto de datos, puede comenzar probando su configuración con:
python demo_cli.py
Si todas las pruebas pasan, estás listo para comenzar.
Para jugar solo con la caja de herramientas, solo recomiendo descargar LibriSpeech/train-clean-100
. Extraiga el contenido como
donde
es un directorio de su elección. Otros conjuntos de datos son compatibles con la caja de herramientas, consulte aquí. Eres libre de no descargar ningún conjunto de datos, pero necesitarás tus propios datos como archivos de audio o tendrás que grabarlos con la caja de herramientas.
Luego puedes probar la caja de herramientas:
python demo_toolbox.py -d
o
python demo_toolbox.py
dependiendo de si descargó algún conjunto de datos. Si está ejecutando un servidor X o si recibe el error Aborted (core dumped)
, consulte este problema.