Este repositório é uma implementação de Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis (SV2TTS) com um vocoder que funciona em tempo real. Esta foi a minha tese de mestrado.
SV2TTS é uma estrutura de aprendizado profundo em três estágios. Na primeira etapa, cria-se uma representação digital de uma voz a partir de alguns segundos de áudio. Na segunda e terceira etapas, essa representação é utilizada como referência para gerar fala a partir de um texto arbitrário.
Demonstração em vídeo (clique na imagem):
URL | Designação | Título | Fonte de implementação |
---|---|---|---|
1806.04558 | SV2TTS | Transferir o aprendizado da verificação de alto-falante para a síntese de conversão de texto em fala de vários alto-falantes | Este repositório |
1802.08435 | WaveRNN (codificador de voz) | Síntese de Áudio Neural Eficiente | fatcord/WaveRNN |
1703.10135 | Tacotron (sintetizador) | Tacotron: Rumo à síntese de fala de ponta a ponta | fatcord/WaveRNN |
1710.10467 | GE2E (codificador) | Perda generalizada de ponta a ponta para verificação de alto-falante | Este repositório |
Como tudo no Deep Learning, este repositório envelheceu rapidamente. Muitos aplicativos SaaS (geralmente pagos) oferecem uma qualidade de áudio melhor do que este repositório. Se você deseja uma solução de código aberto com alta qualidade de voz:
venv
, mas isso é opcional.pip install -r requirements.txt
Os modelos pré-treinados agora são baixados automaticamente. Se isso não funcionar para você, você pode baixá-los manualmente aqui.
Antes de baixar qualquer conjunto de dados, você pode começar testando sua configuração com:
python demo_cli.py
Se todos os testes passarem, você está pronto para prosseguir.
Para brincar apenas com a caixa de ferramentas, recomendo apenas baixar LibriSpeech/train-clean-100
. Extraia o conteúdo como
onde
é um diretório de sua escolha. Outros conjuntos de dados são suportados na caixa de ferramentas, veja aqui. Você está livre para não baixar nenhum conjunto de dados, mas precisará de seus próprios dados como arquivos de áudio ou terá que gravá-los com a caixa de ferramentas.
Você pode então experimentar a caixa de ferramentas:
python demo_toolbox.py -d
ou
python demo_toolbox.py
dependendo se você baixou algum conjunto de dados. Se você estiver executando um servidor X ou se tiver o erro Aborted (core dumped)
, consulte este problema.