Téléchargement de VALL EX - Téléchargement du code source VALL EX

VALL E X

Code Source AI

1.0.0

Télécharger

VALL-E X : synthèse de synthèse vocale multilingue et clonage vocal ?

Anglais | Chine
Une implémentation open source du modèle TTS zéro tir VALL-E X de Microsoft.
Nous publions notre modèle formé au public à des fins de recherche ou d'utilisation d'application.

vallex-framework

VALL-E X est un étonnant modèle de synthèse vocale multilingue (TTS) proposé par Microsoft. Bien que Microsoft ait initialement publié son document de recherche, ils n'ont publié aucun code ni modèle pré-entraîné. Consciente du potentiel et de la valeur de cette technologie, notre équipe a relevé le défi de reproduire les résultats et de former notre propre modèle. Nous sommes heureux de partager notre modèle VALL-E X formé avec la communauté, permettant à chacun de découvrir la puissance du TTS de nouvelle génération !

Plus de détails sur le modèle sont présentés dans la fiche modèle.

Index rapide

Mises à jour
? Caractéristiques
Installation
Démos
? Usage
❓FAQ
? FAIRE

Mises à jour

2023.09.10

Ajout du décodage par lots du décodeur AR pour un résultat de génération plus stable.

2023.08.30

Remplacement du décodeur EnCodec par le décodeur Vocos, qualité audio améliorée. (Merci à @v0xie)

2023.08.23

Ajout de la génération de texte long.

2023.08.20

Ajout du fichier README chinois.

2023.08.14

Le point de contrôle VALL-E X pré-entraîné est maintenant disponible. Téléchargez-le ici

Installation

Installer avec pip, Python 3.10, CUDA 11.7 ~ 12.0, PyTorch 2.0+

 git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
pip install -r requirements.txt

Remarque : Si vous souhaitez créer une invite, vous devez installer ffmpeg et ajouter son dossier à la variable d'environnement PATH.

Lorsque vous exécutez le programme pour la première fois, il téléchargera automatiquement le modèle correspondant.

Si le téléchargement échoue et signale une erreur, veuillez suivre les étapes ci-dessous pour télécharger manuellement le modèle.

(Veuillez faire attention à la majuscule des dossiers)

Vérifiez s'il existe un dossier checkpoints dans le répertoire d'installation. Sinon, créez manuellement un dossier checkpoints ( ./checkpoints/ ) dans le répertoire d'installation.
Vérifiez s'il existe un fichier vallex-checkpoint.pt dans le dossier checkpoints . Sinon, veuillez télécharger manuellement le fichier vallex-checkpoint.pt à partir d'ici et placez-le dans le dossier checkpoints .
Vérifiez s'il existe un dossier whisper dans le répertoire d'installation. Sinon, créez manuellement un dossier whisper ( ./whisper/ ) dans le répertoire d'installation.
Vérifiez s'il existe un fichier medium.pt dans le dossier whisper . Sinon, veuillez télécharger manuellement le fichier medium.pt à partir d'ici et placez-le dans le dossier whisper .

Démos

Vous n'êtes pas encore prêt à configurer l'environnement sur votre ordinateur local ? Aucun problème! Nous avons ce qu'il vous faut avec nos démos en ligne. Vous pouvez essayer VALL-E X directement sur Hugging Face ou Google Colab, et découvrir les capacités du modèle sans tracas !

? Caractéristiques

VALL-E X est doté de fonctionnalités de pointe :

TTS multilingue : parlez en trois langues - anglais, chinois et japonais - avec une synthèse vocale naturelle et expressive.
Clonage vocal sans tir : enregistrez un court enregistrement de 3 à 10 secondes d'un locuteur invisible et regardez VALL-E X créer un discours personnalisé de haute qualité qui lui ressemble !

voir exemple

invite.webm

sortie.webm

Contrôle des émotions vocales : découvrez le pouvoir des émotions ! VALL-E X peut synthétiser la parole avec la même émotion que l'invite acoustique fournie, ajoutant une couche supplémentaire d'expressivité à votre audio.

voir exemple

invite-sommeil.mp4

sortie endormie.mp4

Synthèse vocale multilingue Zero-shot : emmenez les locuteurs monolingues dans un voyage linguistique ! VALL-E X peut produire un discours personnalisé dans une autre langue sans compromettre la maîtrise ou l'accent. Vous trouverez ci-dessous une conférence d'un japonais en chinois et en anglais. ?? ?

voir exemple

jp-prompt.webm

fr-output.webm

zh-output.webm

Contrôle des accents : soyez créatif avec les accents ! VALL-E X vous permet d'expérimenter différents accents, comme parler chinois avec un accent anglais ou vice versa. ??

voir exemple

fr-prompt.webm

zh-accent-output.webm

fr-accent-output.webm

Entretien de l'environnement acoustique : Pas besoin de messages audio parfaitement propres ! VALL-E X s'adapte à l'environnement acoustique de l'entrée, rendant la génération vocale naturelle et immersive.

voir exemple

bruit-prompt.webm

sortie de bruit.webm

Explorez notre page de démonstration pour de nombreux autres exemples !

? Utilisation en Python

? Les bases

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav
from IPython . display import Audio

# download and load all models
preload_models ()

# generate audio from text
text_prompt = """
Hello, my name is Nose. And uh, and I like hamburger. Hahaha... But I also have other interests such as playing tactic toast.
"""
audio_array = generate_audio ( text_prompt )

# save audio to disk
write_wav ( "vallex_generation.wav" , SAMPLE_RATE , audio_array )

# play text in notebook
Audio ( audio_array , rate = SAMPLE_RATE )

hamburger.webm

? Langue étrangère

Cette implémentation de VALL-E X prend également en charge le chinois et le japonais. Les trois langues ont des performances tout aussi impressionnantes !

 text_prompt = """
    チュソクは私のお気に入りの祭りです。 私は数日間休んで、友人や家族との時間を過ごすことができます。
"""
audio_array = generate_audio ( text_prompt )

vallex_japanese.webm

Remarque : VALL-E X contrôle parfaitement l'accent même lors de la synthèse de texte à changement de code. Cependant, vous devez indiquer manuellement la langue des phrases respectives (puisque notre outil g2p est basé sur des règles)

 text_prompt = """
    [EN]The Thirty Years' War was a devastating conflict that had a profound impact on Europe.[EN]
    [ZH]这是历史的开始。 如果您想听更多，请继续。[ZH]
"""
audio_array = generate_audio ( text_prompt , language = 'mix' )

vallex_codeswitch.webm

? Préréglages vocaux

VALL-E X fournit des dizaines de voix de locuteurs que vous pouvez directement utiliser pour l'inférence ! Parcourez toutes les voix dans le code

VALL-E X essaie de faire correspondre le ton, la hauteur, l'émotion et la prosodie d'un préréglage donné. Le modèle tente également de préserver la musique, le bruit ambiant, etc.

 text_prompt = """
I am an innocent boy with a smoky voice. It is a great honor for me to speak at the United Nations today.
"""
audio_array = generate_audio ( text_prompt , prompt = "dingzhen" )

smoky.webm

?Clonage vocal

VALL-E X prend en charge le clonage vocal ! Vous pouvez créer une invite vocale avec n'importe quelle personne, personnage ou même votre propre voix, et l'utiliser comme d'autres préréglages vocaux.
Pour créer une invite vocale, vous devez fournir un discours d'une durée de 3 à 10 secondes, ainsi que la transcription du discours. Vous pouvez également laisser la transcription vide pour laisser le modèle Whisper générer la transcription.

VALL-E X essaie de faire correspondre le ton, la hauteur, l'émotion et la prosodie d'une invite donnée. Le modèle tente également de préserver la musique, le bruit ambiant, etc.

 from utils . prompt_making import make_prompt

### Use given transcript
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" ,
                transcript = "Just, what was that? Paimon thought we were gonna get eaten." )

### Alternatively, use whisper
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" )

Essayons maintenant l'invite que nous venons de créer !

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav

# download and load all models
preload_models ()

text_prompt = """
Hey, Traveler, Listen to this, This machine has taken my voice, and now it can talk just like me!
"""
audio_array = generate_audio ( text_prompt , prompt = "paimon" )

write_wav ( "paimon_cloned.wav" , SAMPLE_RATE , audio_array )

paimon_prompt.webm

paimon_cloned.webm

?Interface utilisateur

Vous n'êtes pas à l'aise avec les codes ? Aucun problème! Nous avons également créé une interface graphique conviviale pour VALL-E X. Elle vous permet d'interagir avec le modèle sans effort, faisant du clonage vocal et de la synthèse vocale multilingue un jeu d'enfant.
Vous pouvez lancer l'interface utilisateur à l'aide de la commande suivante :

 python -X utf8 launch-ui.py

Matériel et vitesse d'inférence

VALL-E X fonctionne bien sur CPU et GPU ( pytorch 2.0+ , CUDA 11.7 et CUDA 12.0).

Une VRAM GPU de 6 Go est suffisante pour exécuter VALL-E X sans déchargement.

Détails

VALL-E X est similaire à Bark, VALL-E et AudioLM, qui génère de l'audio dans le style GPT en prédisant les jetons audio quantifiés par EnCodec.
En comparaison avec l'écorce :

✔ Léger : 3️⃣ ✖ plus petit,
✔ Efficace : 4️⃣ ✖ plus rapide,
✔ Meilleure qualité en chinois et en japonais
✔ Discours multilingue sans accent étranger
✔ Clonage vocal facile
Moins de langues
Pas de jetons spéciaux pour la musique/effets sonores

Langues prises en charge

Langue	Statut
anglais (fr)	✅
Japonais (ja)	✅
Chinois simplifié (zh)	✅

❓FAQ

Où est le code pour la formation ?

La vallée de Lifeiteng a presque tout. Il n'est pas prévu de publier notre code de formation car il n'y a aucune différence entre la mise en œuvre de lifeiteng.

Où puis-je télécharger le modèle de point de contrôle ?

Nous utilisons wget pour télécharger le modèle dans le répertoire ./checkpoints/ lorsque vous exécutez le programme pour la première fois.
Si le téléchargement échoue lors de la première exécution, veuillez télécharger manuellement à partir de ce lien et placer le fichier dans le répertoire ./checkpoints/ .

De quelle quantité de VRAM ai-je besoin ?

6 Go de VRAM GPU – Presque tous les GPU NVIDIA satisfont à cette exigence.

Pourquoi le modèle ne parvient pas à générer un texte long ?

La complexité de calcul du transformateur augmente quadratiquement tandis que la longueur de la séquence augmente. Par conséquent, tous les entraînements durent moins de 22 secondes. Veuillez vous assurer que la durée totale de l'invite audio et de l'audio généré est inférieure à 22 secondes pour garantir des performances acceptables.

PLUS À AJOUTER...

? FAIRE

Ajouter un fichier README chinois
Génération de texte long
Remplacez le décodeur Encodec par le décodeur Vocos
Un réglage fin pour une meilleure adaptation vocale
Scripts .bat pour les utilisateurs non-python
A ajouter...

Appréciation

Papier VALL-E X pour une idée géniale
val-e de lifeiteng pour le code de formation associé
aboie pour l'incroyable travail pionnier sur le modèle neuro-codec TTS

️ Montrez votre soutien

Si vous trouvez VALL-E X intéressant et utile, donnez-nous une étoile sur GitHub ! ️ Cela nous encourage à continuer d'améliorer le modèle et d'ajouter des fonctionnalités intéressantes.