Observação: não pretendo trabalhar ativamente em melhorias/aprimoramentos para este projeto; isso tem como objetivo principal manter o repositório em um estado de funcionamento no caso de o git.ecker original falhar ou alterações necessárias no pacote precisarem ser feitas.
Dito isto, algumas melhorias adicionadas em comparação com o repositório original:
✔️ Possível treinar em outros idiomas
✔️ Adicionado Hifigan, permitindo inferência mais rápida em detrimento da qualidade.
✔️ Whisper-v3 adicionado como uma opção selecionável para Whisperx
✔️ Conversão de saída usando RVC
Este é um fork do repositório originalmente localizado aqui: https://git.ecker.tech/mrq/ai-voice-cloning. Todo o trabalho realizado para incorporar o treinamento com DLAS e inferência com o Tortoise pertence ao mrq, o autor do repositório original de clonagem de voz ai.
Este repositório funciona em Windows com GPUs NVIDIA e Linux executando Docker com GPUs NVIDIA .
start.bat
Se estiver instalando manualmente, você precisará de:
git clone https://github.com/JarodMica/ai-voice-cloning.git
setup-cuda.bat
e ele começará a ser executado em todos os pacotes python necessáriosstart.bat
e isso iniciará o download da maioria dos modelos que você precisa.models
da raiz.setup-whipserx.bat
Certifique-se de que os drivers nvidia mais recentes estejam instalados: sudo ubuntu-drivers install
Instale o Docker da maneira que preferir. Uma maneira de fazer isso é seguir a documentação oficial aqui.
Se, ao iniciar a janela de encaixe de clonagem de voz, você receber uma mensagem de erro informando que a GPU não pode ser usada, talvez seja necessário instalar o Nvidia Docker Container Toolkit.
Instale com o método "apt"
Execute o comando de configuração do docker
sudo nvidia-ctk runtime configure --runtime=docker
Reinicie a janela de encaixe
Certifique-se de que seus drivers Nvidia estejam atualizados: https://www.nvidia.com/download/index.aspx
wsl --install
e reinicieubuntu
. Agora deve carregar você no wsl2sudo apt-key del 7fa2af80
wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-4
ubuntu
e siga abaixo git clone https://github.com/JarodMica/ai-voice-cloning.git && cd ai-voice-cloning
./setup-docker.sh
./start-docker.sh
http://localhost:7860
ou remotamente com http://<ip>:7860
Se o servidor remoto não puder ser alcançado, verifique este tópico
Talvez você também precise remapear suas pastas locais para as pastas do Docker. Para fazer isso, você deve abrir o script "start-docker.sh" e atualizar algumas linhas. Por exemplo, se você deseja encontrar facilmente os áudios gerados, crie uma pasta "resultados" no diretório raiz e, em "start-docker.sh", adicione a linha:
-v "your/custom/path:/home/user/ai-voice-cloning/results"
Confira o vídeo do YouTube:
Assista primeiro: https://youtu.be/WWhNqJEmF9M?si=RhUZhYersAvSZ4wf
Assista segundo (atualização RVC): https://www.youtube.com/watch?v=7tpWH8_S8es&t=504s
Tudo está praticamente igual a antes, se você já usou este repositório no passado, no entanto, há uma nova opção para converter a saída de texto usando rvc
. Antes de poder usá-lo, você precisará de um arquivo RVC .pth treinado obtido no RVC ou on-line e, em seguida, precisará colocá-lo em models/rvc_models/
. Os arquivos .index e .pth podem ser colocados aqui e aparecerão corretamente em seus respectivos menus suspensos.
Para ativar o rvc:
Show Experimental Settings
para revelar mais opçõesRun the outputter audio through RVC
. Agora você terá acesso aos parâmetros que pode ajustar no RVC para o modelo de voz RVC que está usando. Abaixo estão como você pode atualizar o pacote para as atualizações mais recentes
NOTA: Se houver alterações importantes nos recursos, verifique a versão mais recente para ver se
update_package.bat
funcionará. Caso contrário, você precisará baixar novamente e extrair novamente o pacote do Hugging Face.
update_package.bat
Você deve conseguir navegar até a pasta e puxar o repositório para atualizá-lo.
cd ai-voice-cloning
git pull
Se houver recursos grandes adicionados, pode ser necessário excluir o venv e executar novamente o script setup-cuda para garantir que não haja problemas de pacote
Você deve conseguir navegar até a pasta e, em seguida, extrair o repositório para atualizá-lo e, em seguida, reconstruir sua imagem do Docker.
cd ai-voice-cloning
git pull
./setup-docker.sh
O terminal é seu amigo. Quaisquer erros ou problemas aparecerão no terminal quando você tentar executar, e então você poderá começar a depurar a partir daí.
.venvScriptsactivate.bat
pip uninstall torch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Se você tiver algum problema, abra um novo problema na guia de problemas.
setup-cuda.bat
deve ter tudo que você precisa para que os pacotes sejam instalados. Todos os diferentes arquivos de requisitos tornam o script uma bagunça, mas cada repositório tem seus requisitos instalados e, no final, o requirements.txt
na raiz é necessário para alterar a versão de volta para versões compatíveis para este repositório.