ai voice cloning Download - ai voice cloning download do código-fonte

ai voice cloning

Outro código-fonte

v3.0

Baixar

Clonagem de voz com IA

Observação: não pretendo trabalhar ativamente em melhorias/aprimoramentos para este projeto; isso tem como objetivo principal manter o repositório em um estado de funcionamento no caso de o git.ecker original falhar ou alterações necessárias no pacote precisarem ser feitas.

Dito isto, algumas melhorias adicionadas em comparação com o repositório original:

✔️ Possível treinar em outros idiomas

✔️ Adicionado Hifigan, permitindo inferência mais rápida em detrimento da qualidade.

✔️ Whisper-v3 adicionado como uma opção selecionável para Whisperx

✔️ Conversão de saída usando RVC

Este é um fork do repositório originalmente localizado aqui: https://git.ecker.tech/mrq/ai-voice-cloning. Todo o trabalho realizado para incorporar o treinamento com DLAS e inferência com o Tortoise pertence ao mrq, o autor do repositório original de clonagem de voz ai.

Configurar

Este repositório funciona em Windows com GPUs NVIDIA e Linux executando Docker com GPUs NVIDIA .

Pacote Windows (recomendado)

Opcional, mas recomendado: Instale o 7zip no seu computador: https://www.7-zip.org/
- Se você tiver algum problema de extração, provavelmente é porque seu 7zip está desatualizado OU você está usando um extrator diferente.
Vá para a guia de lançamentos e baixe o pacote mais recente no Hugging Face: https://github.com/JarodMica/ai-voice-cloning/releases/tag/v3.0
Extraia o arquivo 7zip.
Abra ai-voice-cloning e execute start.bat

Instalação manual alternativa

Se estiver instalando manualmente, você precisará de:

Python 3.11: https://www.python.org/downloads/release/python-311/
Git: https://www.git-scm.com/downloads

Clonar o repositório

 git clone https://github.com/JarodMica/ai-voice-cloning.git

Execute o arquivo setup-cuda.bat e ele começará a ser executado em todos os pacotes python necessários
- Se você não possui o python 3.11, ele não funcionará e você precisará baixá-lo
Depois de terminar, execute start.bat e isso iniciará o download da maioria dos modelos que você precisa.
- Alguns modelos são baixados quando você os usa pela primeira vez. Você sofrerá downloads adicionais durante a geração e durante o treinamento (para sussurro). No entanto, quando terminarem, você nunca mais precisará baixá-los novamente, desde que não os exclua. Eles estão localizados na pasta models da raiz.
(Opcional) Você pode optar por instalar o Whisperx para treinamento executando setup-whipserx.bat
- Confira a página do Whisperx no GitHub para obter mais detalhes, mas é muito mais rápido para arquivos de áudio mais longos. Se você estiver processando um por um com um conjunto de dados já dividido, isso não melhorará muito a velocidade.

Docker para Linux (ou WSL2)

Configuração específica do Linux

Certifique-se de que os drivers nvidia mais recentes estejam instalados: sudo ubuntu-drivers install
Instale o Docker da maneira que preferir. Uma maneira de fazer isso é seguir a documentação oficial aqui.
- Comece desinstalando as versões antigas
- Siga o método de instalação do repositório "apt"
- Verifique se tudo está funcionando com o contêiner “hello-world”
Se, ao iniciar a janela de encaixe de clonagem de voz, você receber uma mensagem de erro informando que a GPU não pode ser usada, talvez seja necessário instalar o Nvidia Docker Container Toolkit.
- Instale com o método "apt"
- Execute o comando de configuração do docker
  sudo nvidia-ctk runtime configure --runtime=docker
- Reinicie a janela de encaixe

Configuração específica do Windows

Certifique-se de que seus drivers Nvidia estejam atualizados: https://www.nvidia.com/download/index.aspx

Instale WSL2 no PowerShell com wsl --install e reinicie
Abra o PowerShell, digite e digite ubuntu . Agora deve carregar você no wsl2
Remova a chave de cache original da nvidia: sudo apt-key del 7fa2af80
Baixe o chaveiro do kit de ferramentas CUDA: wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
Instale o chaveiro: sudo dpkg -i cuda-keyring_1.1-1_all.deb
Lista de pacotes de atualização: sudo apt-get update
Instale o kit de ferramentas CUDA: sudo apt-get -y install cuda-toolkit-12-4
Instale o Docker Desktop usando WSL2 como back-end
Reiniciar
Se você deseja monitorar o terminal remotamente via SSH, siga este guia.
Abra o PowerShell, digite ubuntu e siga abaixo

Construindo e executando no Docker

Abra um terminal (ou Ubuntu WSL)
Clone o repositório: git clone https://github.com/JarodMica/ai-voice-cloning.git && cd ai-voice-cloning
Construa a imagem com ./setup-docker.sh
Inicie o contêiner com ./start-docker.sh
Visite http://localhost:7860 ou remotamente com http://<ip>:7860

Se o servidor remoto não puder ser alcançado, verifique este tópico

Talvez você também precise remapear suas pastas locais para as pastas do Docker. Para fazer isso, você deve abrir o script "start-docker.sh" e atualizar algumas linhas. Por exemplo, se você deseja encontrar facilmente os áudios gerados, crie uma pasta "resultados" no diretório raiz e, em "start-docker.sh", adicione a linha:

-v "your/custom/path:/home/user/ai-voice-cloning/results"

Instruções

Confira o vídeo do YouTube:

Assista primeiro: https://youtu.be/WWhNqJEmF9M?si=RhUZhYersAvSZ4wf

Assista segundo (atualização RVC): https://www.youtube.com/watch?v=7tpWH8_S8es&t=504s

Tudo está praticamente igual a antes, se você já usou este repositório no passado, no entanto, há uma nova opção para converter a saída de texto usando rvc . Antes de poder usá-lo, você precisará de um arquivo RVC .pth treinado obtido no RVC ou on-line e, em seguida, precisará colocá-lo em models/rvc_models/ . Os arquivos .index e .pth podem ser colocados aqui e aparecerão corretamente em seus respectivos menus suspensos.

Para ativar o rvc:

Marque e ative Show Experimental Settings para revelar mais opções
Verifique e ative Run the outputter audio through RVC . Agora você terá acesso aos parâmetros que pode ajustar no RVC para o modelo de voz RVC que está usando.

Atualizando sua instalação

Abaixo estão como você pode atualizar o pacote para as atualizações mais recentes

Windows

NOTA: Se houver alterações importantes nos recursos, verifique a versão mais recente para ver se update_package.bat funcionará. Caso contrário, você precisará baixar novamente e extrair novamente o pacote do Hugging Face.

Execute o arquivo update_package.bat
- Ele clonará o repositório e copiará a pasta src do repositório para o pacote.

Instalação manual alternativa

Você deve conseguir navegar até a pasta e puxar o repositório para atualizá-lo.

 cd ai-voice-cloning
git pull

Se houver recursos grandes adicionados, pode ser necessário excluir o venv e executar novamente o script setup-cuda para garantir que não haja problemas de pacote

Linux via Docker

Você deve conseguir navegar até a pasta e, em seguida, extrair o repositório para atualizá-lo e, em seguida, reconstruir sua imagem do Docker.

 cd ai-voice-cloning
git pull
./setup-docker.sh

Documentação

Solução de problemas de instalação manual

O terminal é seu amigo. Quaisquer erros ou problemas aparecerão no terminal quando você tentar executar, e então você poderá começar a depurar a partir daí.

Se em algum momento do processo a tocha ficar bagunçada, pode ser necessário reinstalá-la. Você terá que desinstalá-lo e reinstalá-lo da seguinte maneira. Certifique-se de digitar (Y) para confirmar a exclusão.

 .venvScriptsactivate.bat
pip uninstall torch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Relatório de bugs

Se você tiver algum problema, abra um novo problema na guia de problemas.

Dicas para desenvolvedores

setup-cuda.bat deve ter tudo que você precisa para que os pacotes sejam instalados. Todos os diferentes arquivos de requisitos tornam o script uma bagunça, mas cada repositório tem seus requisitos instalados e, no final, o requirements.txt na raiz é necessário para alterar a versão de volta para versões compatíveis para este repositório.

Expandir

Informações adicionais

Versão v3.0
Tipo Outro código-fonte
Data da Última Atualização 2024-12-30
tamanho 17.38MB
Vindo de Github

Aplicativos Relacionados

GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
Criador de IA

2023-04-23
Jaspe IA

2023-04-12
IA alienígena

2022-07-29
Interface SMS ilimitada do GOOGLE VOICE

2009-11-07

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos