Descarga VALL EX - Descarga del código fuente VALL EX

VALL E X

Código Fuente de IA

1.0.0

Descargar

VALL-E X: ¿Síntesis multilingüe de texto a voz y clonación de voz?

Inglés | 中文
Una implementación de código abierto del modelo TTS de disparo cero VALL-E X de Microsoft.
Lanzamos nuestro modelo entrenado al público para investigación o uso de aplicaciones.

vallex-framework

VALL-E X es un sorprendente modelo multilingüe de conversión de texto a voz (TTS) propuesto por Microsoft. Si bien Microsoft publicó inicialmente en su artículo de investigación, no publicó ningún código ni modelo previamente entrenado. Al reconocer el potencial y el valor de esta tecnología, nuestro equipo asumió el desafío de reproducir los resultados y entrenar nuestro propio modelo. ¡Nos complace compartir nuestro modelo VALL-E X entrenado con la comunidad, permitiendo que todos experimenten el poder del TTS de próxima generación!

Más detalles sobre el modelo se presentan en la tarjeta del modelo.

Índice rápido

Actualizaciones
? Características
Instalación
Población
? Uso
❓ Preguntas frecuentes
? HACER

Actualizaciones

2023.09.10

Se agregó decodificación por lotes del decodificador AR para obtener resultados de generación más estables.

2023.08.30

Se reemplazó el decodificador EnCodec por el decodificador Vocos, calidad de audio mejorada. (Gracias a @v0xie)

2023.08.23

Se agregó generación de texto largo.

2023.08.20

Se agregó README chino.

2023.08.14

El punto de control VALL-E X previamente entrenado ya está disponible. Descárgalo aquí

Instalación

Instalar con pip, Python 3.10, CUDA 11.7 ~ 12.0, PyTorch 2.0+

 git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
pip install -r requirements.txt

Nota: Si desea realizar un mensaje, debe instalar ffmpeg y agregar su carpeta a la variable de entorno PATH.

Cuando ejecutes el programa por primera vez, descargará automáticamente el modelo correspondiente.

Si la descarga falla e informa un error, siga los pasos a continuación para descargar manualmente el modelo.

(Preste atención a las mayúsculas de las carpetas)

Compruebe si hay una carpeta de checkpoints en el directorio de instalación. De lo contrario, cree manualmente una carpeta de checkpoints ( ./checkpoints/ ) en el directorio de instalación.
Compruebe si hay un archivo vallex-checkpoint.pt en la carpeta de checkpoints . De lo contrario, descargue manualmente el archivo vallex-checkpoint.pt desde aquí y colóquelo en la carpeta de checkpoints .
Compruebe si hay una carpeta whisper en el directorio de instalación. De lo contrario, cree manualmente una carpeta whisper ( ./whisper/ ) en el directorio de instalación.
Compruebe si hay un archivo medium.pt en la carpeta whisper . De lo contrario, descargue manualmente el archivo medium.pt desde aquí y colóquelo en la carpeta whisper .

Población

¿Aún no estás listo para configurar el entorno en tu máquina local? ¡Ningún problema! Lo cubrimos con nuestras demostraciones en línea. ¡Puedes probar VALL-E X directamente en Hugging Face o Google Colab y experimentar las capacidades del modelo sin problemas!

? Características

VALL-E X viene repleto de funcionalidades de vanguardia:

TTS multilingüe : hable en tres idiomas (inglés, chino y japonés) con una síntesis de voz natural y expresiva.
Clonación de voz sin disparos : Registre una grabación corta de 3 a 10 segundos de un orador invisible y observe cómo VALL-E X crea un discurso personalizado y de alta calidad que suena igual que él.

ver ejemplo

aviso.webm

salida.webm

Control de las emociones del habla : ¡Experimenta el poder de las emociones! VALL-E X puede sintetizar el habla con la misma emoción que el mensaje acústico proporcionado, agregando una capa adicional de expresividad a su audio.

ver ejemplo

mensaje-somnoliento.mp4

salida-somnolienta.mp4

Síntesis de habla multilingüe de disparo cero : ¡lleva a hablantes monolingües a un viaje lingüístico! VALL-E X puede producir un habla personalizada en otro idioma sin comprometer la fluidez o el acento. A continuación se muestra una charla de un hablante japonés en chino e inglés. ?? ?

ver ejemplo

jp-prompt.webm

es-output.webm

zh-salida.webm

Control de acento : ¡Sea creativo con los acentos! VALL-E X te permite experimentar con diferentes acentos, como hablar chino con acento inglés o viceversa. ??

ver ejemplo

es-prompt.webm

zh-accent-output.webm

es-accent-output.webm

Mantenimiento del entorno acústico : ¡No es necesario recibir mensajes de audio perfectamente limpios! VALL-E X se adapta al entorno acústico de la entrada, haciendo que la generación de voz se sienta natural e inmersiva.

ver ejemplo

aviso-de-ruido.webm

salida-de-ruido.webm

¡Explore nuestra página de demostración para ver muchos más ejemplos!

? Uso en Python

? Lo esencial

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav
from IPython . display import Audio

# download and load all models
preload_models ()

# generate audio from text
text_prompt = """
Hello, my name is Nose. And uh, and I like hamburger. Hahaha... But I also have other interests such as playing tactic toast.
"""
audio_array = generate_audio ( text_prompt )

# save audio to disk
write_wav ( "vallex_generation.wav" , SAMPLE_RATE , audio_array )

# play text in notebook
Audio ( audio_array , rate = SAMPLE_RATE )

hamburguesa.webm

? Lengua extranjera

Esta implementación de VALL-E X también admite chino y japonés. ¡Los tres idiomas tienen un rendimiento igualmente impresionante!

 text_prompt = """
    チュソクは私のお気に入りの祭りです。 私は数日間休んで、友人や家族との時間を過ごすことができます。
"""
audio_array = generate_audio ( text_prompt )

vallex_japanese.webm

Nota: VALL-E X controla el acento perfectamente incluso al sintetizar texto de cambio de código. Sin embargo, es necesario indicar manualmente el idioma de las oraciones respectivas (ya que nuestra herramienta g2p se basa en reglas)

 text_prompt = """
    [EN]The Thirty Years' War was a devastating conflict that had a profound impact on Europe.[EN]
    [ZH]这是历史的开始。 如果您想听更多，请继续。[ZH]
"""
audio_array = generate_audio ( text_prompt , language = 'mix' )

vallex_codeswitch.webm

? Preajustes de voz

¡VALL-E X proporciona decenas de voces de oradores que puedes usar directamente para realizar inferencias! Explora todas las voces en el código.

VALL-E X intenta igualar el tono, la emoción y la prosodia de un preset determinado. El modelo también intenta preservar la música, el ruido ambiental, etc.

 text_prompt = """
I am an innocent boy with a smoky voice. It is a great honor for me to speak at the United Nations today.
"""
audio_array = generate_audio ( text_prompt , prompt = "dingzhen" )

ahumado.webm

?Clonación de voz

¡VALL-E X admite la clonación de voz! Puedes crear un mensaje de voz con cualquier persona, personaje o incluso tu propia voz, y usarlo como otros ajustes preestablecidos de voz.
Para hacer un mensaje de voz, debe proporcionar un discurso de 3 a 10 segundos de duración, así como la transcripción del discurso. También puede dejar la transcripción en blanco para permitir que el modelo Whisper genere la transcripción.

VALL-E X intenta igualar el tono, la emoción y la prosodia de un mensaje determinado. El modelo también intenta preservar la música, el ruido ambiental, etc.

 from utils . prompt_making import make_prompt

### Use given transcript
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" ,
                transcript = "Just, what was that? Paimon thought we were gonna get eaten." )

### Alternatively, use whisper
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" )

¡Ahora probemos el mensaje que acabamos de hacer!

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav

# download and load all models
preload_models ()

text_prompt = """
Hey, Traveler, Listen to this, This machine has taken my voice, and now it can talk just like me!
"""
audio_array = generate_audio ( text_prompt , prompt = "paimon" )

write_wav ( "paimon_cloned.wav" , SAMPLE_RATE , audio_array )

paimon_prompt.webm

paimon_cloned.webm

?Interfaz de usuario

¿No te sientes cómodo con los códigos? ¡Ningún problema! También hemos creado una interfaz gráfica fácil de usar para VALL-E X. Le permite interactuar con el modelo sin esfuerzo, lo que facilita la clonación de voz y la síntesis de voz multilingüe.
Puede iniciar la interfaz de usuario con el siguiente comando:

 python -X utf8 launch-ui.py

Hardware y velocidad de inferencia

VALL-E X funciona bien tanto en CPU como en GPU ( pytorch 2.0+ , CUDA 11.7 y CUDA 12.0).

Una GPU VRAM de 6 GB es suficiente para ejecutar VALL-E X sin descargar.

Detalles

VALL-E X es similar a Bark, VALL-E y AudioLM, que genera audio en estilo GPT prediciendo tokens de audio cuantificados por EnCodec.
Comparando con la corteza:

✔ Peso ligero : 3️⃣ ✖ más pequeño,
✔ Eficiente : 4️⃣ ✖ más rápido,
✔ Mejor calidad en chino y japonés
✔ Habla multilingüe sin acento extranjero
✔ Fácil clonación de voz
Menos idiomas
No hay fichas especiales para música/efectos de sonido.

Idiomas admitidos

Idioma	Estado
Inglés (es)	✅
japonés (ja)	✅
Chino simplificado (zh)	✅

❓ Preguntas frecuentes

¿Dónde está el código para la formación?

El valle-e de Lifeiteng lo tiene casi todo. No hay ningún plan para publicar nuestro código de capacitación porque no hay diferencia entre la implementación de lifeiteng.

¿Dónde puedo descargar el modelo de punto de control?

Usamos wget para descargar el modelo al directorio ./checkpoints/ cuando ejecuta el programa por primera vez.
Si la descarga falla en la primera ejecución, descárguela manualmente desde este enlace y coloque el archivo en el directorio ./checkpoints/ .

¿Cuánta VRAM necesito?

GPU VRAM de 6 GB: casi todas las GPU NVIDIA cumplen con el requisito.

¿Por qué el modelo no genera texto largo?

La complejidad de cálculo del transformador aumenta cuadráticamente mientras aumenta la longitud de la secuencia. Por lo tanto, todos los entrenamientos se mantienen por debajo de los 22 segundos. Asegúrese de que la duración total del mensaje de audio y el audio generado sea inferior a 22 segundos para garantizar un rendimiento aceptable.

MÁS POR AÑADIR...

? HACER

Agregar archivo LÉAME chino
Generación de texto largo
Reemplace el decodificador Encodec con el decodificador Vocos
Ajustes para una mejor adaptación de la voz
Scripts .bat para usuarios que no utilizan Python
Para agregar...

Apreciación

Papel VALL-E X para una idea brillante
valle-e de lifeiteng para código de capacitación relacionado
ladra por el increíble trabajo pionero en el modelo TTS de neurocódec

️ Muestra tu apoyo

Si encuentra VALL-E X interesante y útil, ¡danos una estrella en GitHub! ️ Nos anima a seguir mejorando el modelo y añadiendo características interesantes.