Download VALL EX - Download do código-fonte VALL EX

VALL E X

Código-Fonte de IA

1.0.0

Baixar

VALL-E X: Síntese multilíngue de conversão de texto em fala e clonagem de voz?

Inglês | 中文
Uma implementação de código aberto do modelo VALL-E X zero-shot TTS da Microsoft.
Divulgamos nosso modelo treinado ao público para pesquisa ou uso de aplicativos.

vallex-framework

VALL-E X é um incrível modelo multilíngue de conversão de texto em fala (TTS) proposto pela Microsoft. Embora a Microsoft tenha publicado inicialmente seu artigo de pesquisa, ela não lançou nenhum código ou modelo pré-treinado. Reconhecendo o potencial e o valor desta tecnologia, a nossa equipa assumiu o desafio de reproduzir os resultados e treinar o nosso próprio modelo. Temos o prazer de compartilhar nosso modelo VALL-E X treinado com a comunidade, permitindo que todos experimentem o poder do TTS da próxima geração!

Mais detalhes sobre o modelo são apresentados na ficha de modelo.

Índice rápido

Atualizações
? Características
Instalação
Demonstrações
? Uso
❓ Perguntas frequentes
? PENDÊNCIA

Atualizações

2023.09.10

Adicionada decodificação em lote do decodificador AR para um resultado de geração mais estável.

2023.08.30

Decodificador EnCodec substituído pelo decodificador Vocos, qualidade de áudio aprimorada. (Obrigado a @v0xie)

2023.08.23

Adicionada geração de texto longo.

2023.08.20

Adicionado README chinês.

2023.08.14

O ponto de verificação VALL-E X pré-treinado foi lançado. Baixe aqui

Instalação

Instale com pip, Python 3.10, CUDA 11.7 ~ 12.0, PyTorch 2.0+

 git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
pip install -r requirements.txt

Nota: Se quiser fazer um prompt, você precisa instalar o ffmpeg e adicionar sua pasta à variável de ambiente PATH.

Ao executar o programa pela primeira vez, ele baixará automaticamente o modelo correspondente.

Se o download falhar e reportar um erro, siga as etapas abaixo para baixar manualmente o modelo.

(Por favor, preste atenção à capitalização das pastas)

Verifique se existe uma pasta checkpoints no diretório de instalação. Caso contrário, crie manualmente uma pasta checkpoints ( ./checkpoints/ ) no diretório de instalação.
Verifique se existe um ficheiro vallex-checkpoint.pt na pasta checkpoints . Caso contrário, baixe manualmente o arquivo vallex-checkpoint.pt aqui e coloque-o na pasta checkpoints .
Verifique se existe uma pasta whisper no diretório de instalação. Caso contrário, crie manualmente uma pasta whisper ( ./whisper/ ) no diretório de instalação.
Verifique se existe um arquivo medium.pt na pasta whisper . Caso contrário, baixe manualmente o arquivo medium.pt aqui e coloque-o na pasta whisper .

Demonstrações

Ainda não está pronto para configurar o ambiente em sua máquina local? Sem problemas! Nós ajudamos você com nossas demonstrações online. Você pode experimentar o VALL-E X diretamente no Hugging Face ou no Google Colab, experimentando os recursos do modelo sem complicações!

? Características

VALL-E X vem repleto de funcionalidades de última geração:

TTS multilíngue : fale em três idiomas – inglês, chinês e japonês – com síntese de fala natural e expressiva.
Clonagem de voz zero-shot : registre uma gravação curta de 3 a 10 segundos de um locutor invisível e observe o VALL-E X criar uma fala personalizada e de alta qualidade que soa exatamente como eles!

veja exemplo

prompt.webm

saída.webm

Controle de Emoções de Fala : Experimente o poder das emoções! VALL-E X pode sintetizar a fala com a mesma emoção do prompt acústico fornecido, adicionando uma camada extra de expressividade ao seu áudio.

veja exemplo

prompt de sono.mp4

saída sonolenta.mp4

Síntese de fala interlíngue Zero-shot : leve falantes monolíngues em uma jornada linguística! VALL-E X pode produzir fala personalizada em outro idioma sem comprometer a fluência ou o sotaque. Abaixo está uma palestra de um falante de japonês em chinês e inglês. ?? ?

veja exemplo

jp-prompt.webm

en-output.webm

zh-output.webm

Controle de sotaque : seja criativo com sotaques! VALL-E X permite que você experimente diferentes sotaques, como falar chinês com sotaque inglês ou vice-versa. ??

veja exemplo

en-prompt.webm

zh-accent-output.webm

en-accent-output.webm

Manutenção do ambiente acústico : Não há necessidade de avisos de áudio perfeitamente limpos! VALL-E X se adapta ao ambiente acústico da entrada, fazendo com que a geração de fala pareça natural e envolvente.

veja exemplo

prompt de ruído.webm

saída de ruído.webm

Explore nossa página de demonstração para muito mais exemplos!

? Uso em Python

? Noções básicas

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav
from IPython . display import Audio

# download and load all models
preload_models ()

# generate audio from text
text_prompt = """
Hello, my name is Nose. And uh, and I like hamburger. Hahaha... But I also have other interests such as playing tactic toast.
"""
audio_array = generate_audio ( text_prompt )

# save audio to disk
write_wav ( "vallex_generation.wav" , SAMPLE_RATE , audio_array )

# play text in notebook
Audio ( audio_array , rate = SAMPLE_RATE )

hambúrguer.webm

? Língua estrangeira

Esta implementação VALL-E X também suporta chinês e japonês. Todas as três línguas têm um desempenho igualmente incrível!

 text_prompt = """
    チュソクは私のお気に入りの祭りです。 私は数日間休んで、友人や家族との時間を過ごすことができます。
"""
audio_array = generate_audio ( text_prompt )

vallex_japanese.webm

Nota: VALL-E X controla o acento perfeitamente mesmo ao sintetizar texto de troca de código. No entanto, você precisa indicar manualmente o idioma das respectivas sentenças (já que nossa ferramenta g2p é baseada em regras)

 text_prompt = """
    [EN]The Thirty Years' War was a devastating conflict that had a profound impact on Europe.[EN]
    [ZH]这是历史的开始。 如果您想听更多，请继续。[ZH]
"""
audio_array = generate_audio ( text_prompt , language = 'mix' )

vallex_codeswitch.webm

? Predefinições de voz

VALL-E X fornece dezenas de vozes de alto-falante que você pode usar diretamente para inferência! Procure todas as vozes no código

VALL-E X tenta combinar o tom, o tom, a emoção e a prosódia de um determinado preset. O modelo também tenta preservar música, ruído ambiente, etc.

 text_prompt = """
I am an innocent boy with a smoky voice. It is a great honor for me to speak at the United Nations today.
"""
audio_array = generate_audio ( text_prompt , prompt = "dingzhen" )

esfumaçado.webm

?Clonagem de voz

VALL-E X suporta clonagem de voz! Você pode fazer um comando de voz com qualquer pessoa, personagem ou até mesmo com sua própria voz e usá-lo como outras predefinições de voz.
Para fazer um prompt de voz, você precisa fornecer um discurso de 3 a 10 segundos de duração, bem como a transcrição do discurso. Você também pode deixar a transcrição em branco para permitir que o modelo Whisper gere a transcrição.

VALL-E X tenta combinar o tom, o tom, a emoção e a prosódia de um determinado prompt. O modelo também tenta preservar música, ruído ambiente, etc.

 from utils . prompt_making import make_prompt

### Use given transcript
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" ,
                transcript = "Just, what was that? Paimon thought we were gonna get eaten." )

### Alternatively, use whisper
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" )

Agora vamos testar o prompt que acabamos de fazer!

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav

# download and load all models
preload_models ()

text_prompt = """
Hey, Traveler, Listen to this, This machine has taken my voice, and now it can talk just like me!
"""
audio_array = generate_audio ( text_prompt , prompt = "paimon" )

write_wav ( "paimon_cloned.wav" , SAMPLE_RATE , audio_array )

paimon_prompt.webm

paimon_cloned.webm

?Interface do usuário

Não se sente confortável com códigos? Sem problemas! Também criamos uma interface gráfica amigável para o VALL-E X. Ela permite que você interaja com o modelo sem esforço, facilitando a clonagem de voz e a síntese de fala multilíngue.
Você pode iniciar a IU com o seguinte comando:

 python -X utf8 launch-ui.py

Velocidade de hardware e inferência

VALL-E X funciona bem em CPU e GPU ( pytorch 2.0+ , CUDA 11.7 e CUDA 12.0).

Uma GPU VRAM de 6 GB é suficiente para executar o VALL-E X sem descarregamento.

Detalhes

VALL-E X é semelhante a Bark, VALL-E e AudioLM, que gera áudio no estilo GPT prevendo tokens de áudio quantizados pelo EnCodec.
Comparando com a casca:

✔ Leve : 3️⃣ ✖ menor,
✔ Eficiente : 4️⃣ ✖ mais rápido,
✔ Melhor qualidade em chinês e japonês
✔ Discurso multilíngue sem sotaque estrangeiro
✔ Fácil clonagem de voz
Menos idiomas
Não há tokens especiais para música/efeitos sonoros

Idiomas Suportados

Linguagem	Status
Inglês (pt)	✅
Japonês (já)	✅
Chinês, simplificado (zh)	✅

❓ Perguntas frequentes

Onde está o código para treinamento?

o val-e da lifeiteng tem quase tudo. Não há planos para lançar nosso código de treinamento porque não há diferença entre a implementação do lifeiteng.

Onde posso baixar o ponto de verificação do modelo?

Usamos wget para baixar o modelo para o diretório ./checkpoints/ quando você executa o programa pela primeira vez.
Se o download falhar na primeira execução, baixe manualmente neste link e coloque o arquivo no diretório ./checkpoints/ .

Quanto VRAM eu preciso?

GPU VRAM de 6 GB – Quase todas as GPUs NVIDIA atendem ao requisito.

Por que o modelo não consegue gerar texto longo?

A complexidade computacional do transformador aumenta quadraticamente enquanto o comprimento da sequência aumenta. Portanto, todos os treinamentos são mantidos abaixo de 22 segundos. Certifique-se de que a duração total do prompt de áudio e do áudio gerado seja inferior a 22 segundos para garantir um desempenho aceitável.

MAIS A SER ADICIONADO...

? PENDÊNCIA

Adicionar README chinês
Geração de texto longo
Substitua o decodificador Encodec pelo decodificador Vocos
Ajuste fino para melhor adaptação de voz
Scripts .bat para usuários não-python
Para ser adicionado...

Apreciação

Papel VALL-E X pela ideia brilhante
val-e da lifeiteng para código de treinamento relacionado
latir pelo incrível trabalho pioneiro no modelo neuro-codec TTS

️ Mostre seu apoio

Se você acha o VALL-E X interessante e útil, dê-nos uma estrela no GitHub! ️ Isso nos incentiva a continuar melhorando o modelo e adicionando recursos interessantes.