Remarque Je n'ai pas l'intention de travailler activement sur des améliorations pour ce projet, cela vise principalement à maintenir le dépôt dans un état de fonctionnement au cas où le git.ecker d'origine tomberait en panne ou si les modifications nécessaires au paquet devaient être apportées.
Cela étant dit, quelques améliorations ajoutées par rapport au dépôt d'origine :
✔️ Possibilité de se former dans d'autres langues
✔️ Hifigan ajouté, permettant une inférence plus rapide au détriment de la qualité.
✔️ Whisper-v3 ajouté comme option sélectionnable pour Whisperx
✔️ Conversion de sortie à l'aide de RVC
Il s'agit d'un fork du dépôt situé à l'origine ici : https://git.ecker.tech/mrq/ai-voice-cloning. Tout le travail qui a été consacré à l'intégration de la formation avec DLAS et de l'inférence avec Tortoise appartient à mrq, l'auteur du dépôt original de clonage vocal ai.
Ce dépôt fonctionne sous Windows avec des GPU NVIDIA et Linux exécutant Docker avec des GPU NVIDIA .
start.bat
Si vous l'installez manuellement, vous aurez besoin de :
git clone https://github.com/JarodMica/ai-voice-cloning.git
setup-cuda.bat
et il commencera à parcourir tous les packages python nécessairesstart.bat
et cela commencera à télécharger la plupart des modèles dont vous aurez besoin.models
de la racine.setup-whipserx.bat
Assurez-vous que les derniers pilotes nvidia sont installés : sudo ubuntu-drivers install
Installez Docker de la manière que vous préférez. Une façon de le faire est de suivre la documentation officielle ici.
Si, lors du lancement du docker de clonage vocal, vous avez un message d'erreur indiquant que le GPU ne peut pas être utilisé, vous devrez peut-être installer Nvidia Docker Container Toolkit.
Installer avec la méthode "apt"
Exécutez la commande de configuration Docker
sudo nvidia-ctk runtime configure --runtime=docker
Redémarrer le menu fixe
Assurez-vous que vos pilotes Nvidia sont à jour : https://www.nvidia.com/download/index.aspx
wsl --install
et redémarrezubuntu
. Il devrait maintenant vous charger dans wsl2sudo apt-key del 7fa2af80
wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-4
ubuntu
, puis suivez ci-dessous git clone https://github.com/JarodMica/ai-voice-cloning.git && cd ai-voice-cloning
./setup-docker.sh
./start-docker.sh
http://localhost:7860
ou à distance avec http://<ip>:7860
Si le serveur distant n'est pas accessible, consultez ce fil de discussion
Vous devrez peut-être également remapper vos dossiers locaux vers les dossiers Docker. Pour cela, vous devez ouvrir le script "start-docker.sh", et mettre à jour quelques lignes. Par exemple, si vous souhaitez retrouver facilement vos audios générés, créez un dossier « results » dans le répertoire racine, puis dans « start-docker.sh » ajoutez la ligne :
-v "your/custom/path:/home/user/ai-voice-cloning/results"
Regardez la vidéo YouTube :
Regardez d'abord : https://youtu.be/WWhNqJEmF9M?si=RhUZhYersAvSZ4wf
Regarder Second (mise à jour RVC) : https://www.youtube.com/watch?v=7tpWH8_S8es&t=504s
Tout est à peu près le même qu'avant si vous avez utilisé ce référentiel dans le passé, cependant, il existe une nouvelle option pour convertir la sortie texte à l'aide rvc
. Avant de pouvoir l'utiliser, vous aurez besoin d'un fichier RVC .pth formé que vous obtenez de RVC ou en ligne, puis vous devrez le placer dans models/rvc_models/
. Les fichiers .index et .pth peuvent être placés ici et ils apparaîtront correctement dans leurs menus déroulants respectifs.
Pour activer rvc :
Show Experimental Settings
pour révéler plus d'optionsRun the outputter audio through RVC
. Vous aurez désormais accès aux paramètres que vous pourrez ajuster dans RVC pour le modèle vocal RVC que vous utilisez. Vous trouverez ci-dessous comment mettre à jour le package pour les dernières mises à jour
REMARQUE : en cas de modification majeure des fonctionnalités, vérifiez la dernière version pour voir si
update_package.bat
fonctionnera. Si ce n’est pas le cas, vous devrez retélécharger et réextraire le package de Hugging Face.
update_package.bat
Vous devriez pouvoir naviguer dans le dossier, puis extraire le dépôt pour le mettre à jour.
cd ai-voice-cloning
git pull
Si des fonctionnalités importantes sont ajoutées, vous devrez peut-être supprimer le venv et réexécuter le script setup-cuda pour vous assurer qu'il n'y a pas de problèmes de package.
Vous devriez pouvoir naviguer dans le dossier, puis extraire le dépôt pour le mettre à jour, puis reconstruire votre image Docker.
cd ai-voice-cloning
git pull
./setup-docker.sh
Le terminal est votre ami. Toutes les erreurs ou problèmes apparaîtront dans le terminal lorsque vous essaierez de l'exécuter, puis vous pourrez commencer le débogage à partir de là.
.venvScriptsactivate.bat
pip uninstall torch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Si vous rencontrez des problèmes, veuillez ouvrir un nouveau problème dans l'onglet Problèmes.
setup-cuda.bat
devrait avoir tout ce dont vous avez besoin pour que les packages soient installés. Tous les différents fichiers d'exigences rendent le script assez compliqué, mais chaque dépôt a ses exigences installées, puis à la fin, le requirements.txt
à la racine est nécessaire pour rétablir la version en versions compatibles pour ce dépôt.