Dieses Repository ist eine Implementierung von Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) mit einem Vocoder, der in Echtzeit arbeitet. Das war meine Masterarbeit.
SV2TTS ist ein Deep-Learning-Framework in drei Stufen. Im ersten Schritt erstellt man aus wenigen Sekunden Audio eine digitale Darstellung einer Stimme. In der zweiten und dritten Stufe wird diese Darstellung als Referenz verwendet, um Sprache für einen beliebigen Text zu generieren.
Videodemonstration (klicken Sie auf das Bild):
URL | Bezeichnung | Titel | Implementierungsquelle |
---|---|---|---|
1806.04558 | SV2TTS | Übertragen Sie das Lernen von der Sprecherverifizierung auf die Text-zu-Sprache-Synthese für mehrere Sprecher | Dieses Repo |
1802.08435 | WaveRNN (Vocoder) | Effiziente neuronale Audiosynthese | fatchord/WaveRNN |
1703.10135 | Tacotron (Synthesizer) | Tacotron: Auf dem Weg zur End-to-End-Sprachsynthese | fatchord/WaveRNN |
1710.10467 | GE2E (Encoder) | Generalisierter End-to-End-Verlust zur Sprecherverifizierung | Dieses Repo |
Wie alles andere im Deep Learning ist auch dieses Repo schnell veraltet. Viele SaaS-Apps (oft kostenpflichtig) bieten Ihnen eine bessere Audioqualität als dieses Repository. Wenn Sie eine Open-Source-Lösung mit hoher Sprachqualität wünschen:
venv
, dies ist jedoch optional.pip install -r requirements.txt
Vorab trainierte Modelle werden jetzt automatisch heruntergeladen. Wenn dies bei Ihnen nicht funktioniert, können Sie sie hier manuell herunterladen.
Bevor Sie einen Datensatz herunterladen, können Sie zunächst Ihre Konfiguration testen mit:
python demo_cli.py
Wenn alle Tests bestanden sind, kann es losgehen.
Allein zum Spielen mit der Toolbox empfehle ich nur den Download LibriSpeech/train-clean-100
. Extrahieren Sie den Inhalt als
wobei
ein Verzeichnis Ihrer Wahl ist. Weitere Datensätze werden in der Toolbox unterstützt, siehe hier. Es steht Ihnen frei, keinen Datensatz herunterzuladen, aber dann benötigen Sie Ihre eigenen Daten als Audiodateien oder müssen diese mit der Toolbox aufzeichnen.
Dann können Sie die Toolbox ausprobieren:
python demo_toolbox.py -d
oder
python demo_toolbox.py
abhängig davon, ob Sie Datensätze heruntergeladen haben. Wenn Sie einen X-Server betreiben oder der Fehler Aborted (core dumped)
auftritt, sehen Sie sich dieses Problem an.