Descarga TTS - Descarga del código fuente TTS

TTS

Otro código fuente

v0.22.0

Descargar

?Coqui.ai Noticias

ⓍTTSv2 está aquí con 16 idiomas y mejor rendimiento en todos los ámbitos.
ⓍEl código de ajuste fino de TTS ya está disponible. Consulta las recetas de ejemplo.
ⓍTTS ahora puede transmitir con una latencia <200 ms.
ⓍSe lanza TTS, nuestro modelo de TTS de producción que puede hablar 13 idiomas. Publicación de blog, demostración, documentos
?Bark ahora está disponible para realizar inferencias con clonación de voz sin restricciones. Documentos
Puede utilizar ~1100 modelos Fairseq con ?TTS.
?TTS ahora admite ?Tortoise con una inferencia más rápida. Documentos

donde hacer preguntas

Utilice nuestros canales dedicados para preguntas y debates. La ayuda es mucho más valiosa si se comparte públicamente para que más personas puedan beneficiarse de ella.

Tipo	Plataformas
Informes de errores	Rastreador de problemas de GitHub
? Solicitudes e ideas de funciones	Rastreador de problemas de GitHub
? ‍ Preguntas de uso	Discusiones de GitHub
? Discusión general	Discusiones o Discord de GitHub

? Enlaces y recursos

Tipo	Campo de golf
Documentación	Leer los documentos
? Instalación	TTS/README.md
? ‍ Contribuyendo	CONTRIBUYENDO.md
? Mapa vial	Principales planes de desarrollo
Modelos lanzados	Lanzamientos TTS y modelos experimentales
? Papeles	Artículos TTS

? Rendimiento TTS

"TTS*" y "Judy*" subrayados son modelos ?TTS internos que no se publican en código abierto. Están aquí para mostrar el potencial. Los modelos con el prefijo un punto (.Jofish, .Abe y .Janice) son voces humanas reales.

Características

Modelos de Deep Learning de alto rendimiento para tareas Text2Speech.
- Modelos Text2Spec (Tacotron, Tacotron2, Glow-TTS, SpeedySpeech).
- Codificador de altavoces para calcular las incrustaciones de altavoces de manera eficiente.
- Modelos de vocoder (MelGAN, Multiband-MelGAN, GAN-TTS, ParallelWaveGAN, WaveGrad, WaveRNN)
Entrenamiento de modelos rápido y eficiente.
Registros de entrenamiento detallados en la terminal y Tensorboard.
Soporte para TTS de múltiples altavoces.
Eficiente, flexible, liviano pero con Trainer API completa.
Modelos liberados y listos para usar.
Herramientas para seleccionar conjuntos de datos de Text2Speech en dataset_analysis .
Utilidades para usar y probar tus modelos.
Base de código modular (pero no demasiado) que permite una fácil implementación de nuevas ideas.

Implementaciones de modelos

Modelos de espectrograma

Tacotrón: papel
Tacotron2: papel
Glow-TTS: papel
Speedy-Speech: papel
Alinear-TTS: papel
FastPitch: papel
FastSpeech: papel
FastSpeech2: papel
SC-GlowTTS: papel
Capacitrón: papel
Desbordamiento: papel
TTS neuronal HMM: papel
TTS encantador: papel

Modelos de extremo a extremo

ⓍTTS: blog
VITS: papel
? TuTTS: papel
? Tortuga: orig. repositorio
? Corteza: orig. repositorio

Métodos de atención

Atención guiada: papel
Decodificación hacia adelante y hacia atrás: papel
Atención de tumbas: papel.
Consistencia del doble decodificador: blog
Atención convolucional dinámica: papel
Red de alineación: papel

Codificador de altavoz

GE2E: papel
Pérdida angular: papel

codificadores de voz

MelGAN: papel
MultiBandMelGAN: papel
ParallelWaveGAN: papel
Discriminadores GAN-TTS: papel
WaveRNN: origen
WaveGrad: papel
HiFiGAN: papel
UnivNet: papel

Conversión de voz

FreeVC: papel

También puedes ayudarnos a implementar más modelos.

Instalación

?TTS se prueba en Ubuntu 18.04 con python >= 3.9, < 3.12. .

Si solo está interesado en sintetizar voz con los modelos ?TTS lanzados, la instalación desde PyPI es la opción más sencilla.

pip install TTS

Si planea codificar o entrenar modelos, clone ?TTS e instálelo localmente.

git clone https://github.com/coqui-ai/TTS
pip install -e .[all,dev,notebooks]  # Select the relevant extras

Si está en Ubuntu (Debian), también puede ejecutar los siguientes comandos para la instalación.

$ make system-deps  # intended to be used on Ubuntu (Debian). Let us know if you have a different OS.
$ make install

Si está en Windows, ?@GuyPaddock escribió las instrucciones de instalación aquí.

Imagen acoplable

También puedes probar TTS sin instalar con la imagen de la ventana acoplable. Simplemente ejecute el siguiente comando y podrá ejecutar TTS sin instalarlo.

docker run --rm -it -p 5002:5002 --entrypoint /bin/bash ghcr.io/coqui-ai/tts-cpu
python3 TTS/server/server.py --list_models # To get the list of available models
python3 TTS/server/server.py --model_name tts_models/en/vctk/vits # To start a server

Luego podrá disfrutar del servidor TTS aquí. Puede encontrar más detalles sobre las imágenes de la ventana acoplable (como la compatibilidad con GPU) aquí.

Sintetizar el habla mediante ?TTS

? API de Python

Ejecución de un modelo multihablante y multilingüe

 import torch
from TTS . api import TTS

# Get device
device = "cuda" if torch . cuda . is_available () else "cpu"

# List available ?TTS models
print ( TTS (). list_models ())

# Init TTS
tts = TTS ( "tts_models/multilingual/multi-dataset/xtts_v2" ). to ( device )

# Run TTS
# ❗ Since this model is multi-lingual voice cloning model, we must set the target speaker_wav and language
# Text to speech list of amplitude values as output
wav = tts . tts ( text = "Hello world!" , speaker_wav = "my/cloning/audio.wav" , language = "en" )
# Text to speech to a file
tts . tts_to_file ( text = "Hello world!" , speaker_wav = "my/cloning/audio.wav" , language = "en" , file_path = "output.wav" )

Ejecutar un modelo de un solo altavoz

 # Init TTS with the target model name
tts = TTS ( model_name = "tts_models/de/thorsten/tacotron2-DDC" , progress_bar = False ). to ( device )

# Run TTS
tts . tts_to_file ( text = "Ich bin eine Testnachricht." , file_path = OUTPUT_PATH )

# Example voice cloning with YourTTS in English, French and Portuguese
tts = TTS ( model_name = "tts_models/multilingual/multi-dataset/your_tts" , progress_bar = False ). to ( device )
tts . tts_to_file ( "This is voice cloning." , speaker_wav = "my/cloning/audio.wav" , language = "en" , file_path = "output.wav" )
tts . tts_to_file ( "C'est le clonage de la voix." , speaker_wav = "my/cloning/audio.wav" , language = "fr-fr" , file_path = "output.wav" )
tts . tts_to_file ( "Isso é clonagem de voz." , speaker_wav = "my/cloning/audio.wav" , language = "pt-br" , file_path = "output.wav" )

Ejemplo de conversión de voz

Convirtiendo la voz en source_wav a la voz de target_wav

 tts = TTS ( model_name = "voice_conversion_models/multilingual/vctk/freevc24" , progress_bar = False ). to ( "cuda" )
tts . voice_conversion_to_file ( source_wav = "my/source.wav" , target_wav = "my/target.wav" , file_path = "output.wav" )

Ejemplo de clonación de voz junto con el modelo de conversión de voz.

De esta manera, puedes clonar voces usando cualquier modelo en ?TTS.

 tts = TTS ( "tts_models/de/thorsten/tacotron2-DDC" )
tts . tts_with_vc_to_file (
    "Wie sage ich auf Italienisch, dass ich dich liebe?" ,
    speaker_wav = "target/speaker.wav" ,
    file_path = "output.wav"
)

¿Ejemplo de texto a voz utilizando modelos Fairseq en ~1100 idiomas ?

Para los modelos Fairseq, utilice el siguiente formato de nombre: tts_models/<lang-iso_code>/fairseq/vits . Puede encontrar los códigos ISO de idioma aquí y conocer los modelos Fairseq aquí.

 # TTS with on the fly voice conversion
api = TTS ( "tts_models/deu/fairseq/vits" )
api . tts_with_vc_to_file (
    "Wie sage ich auf Italienisch, dass ich dich liebe?" ,
    speaker_wav = "target/speaker.wav" ,
    file_path = "output.wav"
)

`tts` de línea de comando

Sintetizar voz en la línea de comando.

Puede utilizar su modelo entrenado o elegir un modelo de la lista proporcionada.

Si no especifica ningún modelo, utiliza el modelo en inglés basado en LJSpeech.

Modelos de un solo altavoz

Lista de modelos proporcionados:
```
 $ tts --list_models
```

Obtenga información del modelo (tanto para tts_models como para vocoder_models):

Consulta por tipo/nombre: model_info_by_name utiliza el nombre tal como aparece en --list_models.

 $ tts --model_info_by_name "<model_type>/<language>/<dataset>/<model_name>"

Por ejemplo:

 $ tts --model_info_by_name tts_models/tr/common-voice/glow-tts
$ tts --model_info_by_name vocoder_models/en/ljspeech/hifigan_v2

Consulta por tipo/idx: model_query_idx utiliza el idx correspondiente de --list_models.

 $ tts --model_info_by_idx "<model_type>/<model_query_idx>"

Por ejemplo:

 $ tts --model_info_by_idx tts_models/3

Consultar información para información del modelo por nombre completo:

 $ tts --model_info_by_name "<model_type>/<language>/<dataset>/<model_name>"

Ejecute TTS con modelos predeterminados:

 $ tts --text "Text for TTS" --out_path output/path/speech.wav

Ejecute TTS y canalice los datos del archivo wav TTS generado:

 $ tts --text "Text for TTS" --pipe_out --out_path output/path/speech.wav | aplay

Ejecute un modelo TTS con su modelo de vocoder predeterminado:

 $ tts --text "Text for TTS" --model_name "<model_type>/<language>/<dataset>/<model_name>" --out_path output/path/speech.wav

Por ejemplo:

 $ tts --text "Text for TTS" --model_name "tts_models/en/ljspeech/glow-tts" --out_path output/path/speech.wav

Ejecute con modelos TTS y vocoder específicos de la lista:

 $ tts --text "Text for TTS" --model_name "<model_type>/<language>/<dataset>/<model_name>" --vocoder_name "<model_type>/<language>/<dataset>/<model_name>" --out_path output/path/speech.wav

Por ejemplo:

 $ tts --text "Text for TTS" --model_name "tts_models/en/ljspeech/glow-tts" --vocoder_name "vocoder_models/en/ljspeech/univnet" --out_path output/path/speech.wav

Ejecute su propio modelo TTS (usando Griffin-Lim Vocoder):

 $ tts --text "Text for TTS" --model_path path/to/model.pth --config_path path/to/config.json --out_path output/path/speech.wav

Ejecute sus propios modelos TTS y Vocoder:

 $ tts --text "Text for TTS" --model_path path/to/model.pth --config_path path/to/config.json --out_path output/path/speech.wav
    --vocoder_path path/to/vocoder.pth --vocoder_config_path path/to/vocoder_config.json

Modelos de varios altavoces

Enumere los oradores disponibles y elija un <speaker_id> entre ellos:

 $ tts --model_name "<language>/<dataset>/<model_name>"  --list_speaker_idxs

Ejecute el modelo TTS de varios altavoces con el ID del altavoz de destino:

 $ tts --text "Text for TTS." --out_path output/path/speech.wav --model_name "<language>/<dataset>/<model_name>"  --speaker_idx <speaker_id>

Ejecute su propio modelo TTS de varios altavoces:

 $ tts --text "Text for TTS" --out_path output/path/speech.wav --model_path path/to/model.pth --config_path path/to/config.json --speakers_file_path path/to/speaker.json --speaker_idx <speaker_id>

Modelos de conversión de voz

 $ tts --out_path output/path/speech.wav --model_name "<language>/<dataset>/<model_name>" --source_wav <path/to/speaker/wav> --target_wav <path/to/reference/wav>

Estructura del directorio

 |- notebooks/       (Jupyter Notebooks for model evaluation, parameter selection and data analysis.)
|- utils/           (common utilities.)
|- TTS
    |- bin/             (folder for all the executables.)
      |- train*.py                  (train your target model.)
      |- ...
    |- tts/             (text to speech models)
        |- layers/          (model layer definitions)
        |- models/          (model definitions)
        |- utils/           (model specific utilities.)
    |- speaker_encoder/ (Speaker Encoder models.)
        |- (same)
    |- vocoder/         (Vocoder models.)
        |- (same)

Expandir

Información adicional