Ce référentiel est une implémentation de Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) avec un vocodeur qui fonctionne en temps réel. C'était mon mémoire de maîtrise.
SV2TTS est un framework d'apprentissage profond en trois étapes. Dans un premier temps, on crée une représentation numérique d'une voix à partir de quelques secondes d'audio. Dans les deuxième et troisième étapes, cette représentation est utilisée comme référence pour générer de la parole à partir d'un texte arbitraire.
Démonstration vidéo (cliquez sur l'image) :
URL | Désignation | Titre | Source de mise en œuvre |
---|---|---|---|
1806.04558 | SV2TTS | Transférer l'apprentissage de la vérification du locuteur à la synthèse de synthèse vocale multi-locuteurs | Ce dépôt |
1802.08435 | WaveRNN (vocodeur) | Synthèse audio neuronale efficace | fatchord/WaveRNN |
1703.10135 | Tacotron (synthétiseur) | Tacotron : vers une synthèse vocale de bout en bout | fatchord/WaveRNN |
1710.10467 | GE2E (encodeur) | Perte généralisée de bout en bout pour la vérification du locuteur | Ce dépôt |
Comme tout le reste dans Deep Learning, ce dépôt a rapidement vieilli. De nombreuses applications SaaS (souvent payantes) vous offriront une meilleure qualité audio que ce référentiel. Si vous souhaitez une solution open source avec une haute qualité vocale :
venv
, mais cela est facultatif.pip install -r requirements.txt
Les modèles pré-entraînés sont désormais téléchargés automatiquement. Si cela ne fonctionne pas pour vous, vous pouvez les télécharger manuellement ici.
Avant de télécharger un ensemble de données, vous pouvez commencer par tester votre configuration avec :
python demo_cli.py
Si tous les tests réussissent, vous êtes prêt à partir.
Pour jouer avec la boîte à outils seule, je recommande uniquement de télécharger LibriSpeech/train-clean-100
. Extrayez le contenu sous la forme
où
est un répertoire de votre choix. D'autres ensembles de données sont pris en charge dans la boîte à outils, voir ici. Vous êtes libre de ne télécharger aucun ensemble de données, mais vous aurez alors besoin de vos propres données sous forme de fichiers audio ou vous devrez les enregistrer avec la boîte à outils.
Vous pouvez alors essayer la boîte à outils :
python demo_toolbox.py -d
ou
python demo_toolbox.py
selon que vous avez téléchargé ou non des ensembles de données. Si vous exécutez un serveur X ou si vous avez l'erreur Aborted (core dumped)
, consultez ce problème.