Téléchargement ai voice cloning - Téléchargement du code source ai voice cloning

ai voice cloning

Autre code source

v3.0

Télécharger

Clonage vocal IA

Remarque Je n'ai pas l'intention de travailler activement sur des améliorations pour ce projet, cela vise principalement à maintenir le dépôt dans un état de fonctionnement au cas où le git.ecker d'origine tomberait en panne ou si les modifications nécessaires au paquet devaient être apportées.

Cela étant dit, quelques améliorations ajoutées par rapport au dépôt d'origine :

✔️ Possibilité de se former dans d'autres langues

✔️ Hifigan ajouté, permettant une inférence plus rapide au détriment de la qualité.

✔️ Whisper-v3 ajouté comme option sélectionnable pour Whisperx

✔️ Conversion de sortie à l'aide de RVC

Il s'agit d'un fork du dépôt situé à l'origine ici : https://git.ecker.tech/mrq/ai-voice-cloning. Tout le travail qui a été consacré à l'intégration de la formation avec DLAS et de l'inférence avec Tortoise appartient à mrq, l'auteur du dépôt original de clonage vocal ai.

Installation

Ce dépôt fonctionne sous Windows avec des GPU NVIDIA et Linux exécutant Docker avec des GPU NVIDIA .

Package Windows (recommandé)

Facultatif, mais recommandé : Installez 7zip sur votre ordinateur : https://www.7-zip.org/
- Si vous rencontrez des problèmes d'extraction, cela est probablement dû au fait que votre 7zip est obsolète OU que vous utilisez un autre extracteur.
Rendez-vous sur l'onglet versions et téléchargez le dernier package sur Hugging Face : https://github.com/JarodMica/ai-voice-cloning/releases/tag/v3.0
Extrayez l'archive 7zip.
Ouvrez ai-voice-cloning, puis exécutez start.bat

Installation manuelle alternative

Si vous l'installez manuellement, vous aurez besoin de :

Python 3.11 : https://www.python.org/downloads/release/python-311/
Git : https://www.git-scm.com/downloads

Cloner le référentiel

 git clone https://github.com/JarodMica/ai-voice-cloning.git

Exécutez le fichier setup-cuda.bat et il commencera à parcourir tous les packages python nécessaires
- Si vous n'avez pas python 3.11, cela ne fonctionnera pas et vous devrez aller le télécharger
Une fois l'opération terminée, exécutez start.bat et cela commencera à télécharger la plupart des modèles dont vous aurez besoin.
- Certains modèles sont téléchargés lors de votre première utilisation. Vous encourrez des téléchargements supplémentaires lors de la génération et lors de la formation (pour murmurer). Cependant, une fois terminés, vous n'aurez plus jamais besoin de les télécharger tant que vous ne les supprimez pas. Ils se trouvent dans le dossier models de la racine.
(Facultatif) Vous pouvez choisir d'installer Whisperx pour la formation en exécutant setup-whipserx.bat
- Consultez la page github de Whisperx pour plus de détails, mais c'est beaucoup plus rapide pour les fichiers audio plus longs. Si vous effectuez un traitement un par un avec un ensemble de données déjà divisé, cela n'améliore pas beaucoup les vitesses.

Docker pour Linux (ou WSL2)

Configuration spécifique à Linux

Assurez-vous que les derniers pilotes nvidia sont installés : sudo ubuntu-drivers install
Installez Docker de la manière que vous préférez. Une façon de le faire est de suivre la documentation officielle ici.
- Commencez par désinstaller les anciennes versions
- Suivez la méthode d'installation du référentiel "apt"
- Vérifiez que tout fonctionne avec le conteneur "hello-world"
Si, lors du lancement du docker de clonage vocal, vous avez un message d'erreur indiquant que le GPU ne peut pas être utilisé, vous devrez peut-être installer Nvidia Docker Container Toolkit.
- Installer avec la méthode "apt"
- Exécutez la commande de configuration Docker
  sudo nvidia-ctk runtime configure --runtime=docker
- Redémarrer le menu fixe

Configuration spécifique à Windows

Assurez-vous que vos pilotes Nvidia sont à jour : https://www.nvidia.com/download/index.aspx

Installez WSL2 dans PowerShell avec wsl --install et redémarrez
Ouvrez PowerShell, tapez et entrez ubuntu . Il devrait maintenant vous charger dans wsl2
Supprimez la clé de cache nvidia d'origine : sudo apt-key del 7fa2af80
Téléchargez le porte-clés de la boîte à outils CUDA : wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
Installer le trousseau : sudo dpkg -i cuda-keyring_1.1-1_all.deb
Liste des packages de mise à jour : sudo apt-get update
Installez la boîte à outils CUDA : sudo apt-get -y install cuda-toolkit-12-4
Installez Docker Desktop en utilisant WSL2 comme backend
Redémarrage
Si vous souhaitez surveiller le terminal à distance via SSH, suivez ce guide.
Ouvrez PowerShell, tapez ubuntu , puis suivez ci-dessous

Construire et exécuter dans Docker

Ouvrez un terminal (ou Ubuntu WSL)
Cloner le référentiel : git clone https://github.com/JarodMica/ai-voice-cloning.git && cd ai-voice-cloning
Construisez l'image avec ./setup-docker.sh
Démarrez le conteneur avec ./start-docker.sh
Visitez http://localhost:7860 ou à distance avec http://<ip>:7860

Si le serveur distant n'est pas accessible, consultez ce fil de discussion

Vous devrez peut-être également remapper vos dossiers locaux vers les dossiers Docker. Pour cela, vous devez ouvrir le script "start-docker.sh", et mettre à jour quelques lignes. Par exemple, si vous souhaitez retrouver facilement vos audios générés, créez un dossier « results » dans le répertoire racine, puis dans « start-docker.sh » ajoutez la ligne :

-v "your/custom/path:/home/user/ai-voice-cloning/results"

Instructions

Regardez la vidéo YouTube :

Regardez d'abord : https://youtu.be/WWhNqJEmF9M?si=RhUZhYersAvSZ4wf

Regarder Second (mise à jour RVC) : https://www.youtube.com/watch?v=7tpWH8_S8es&t=504s

Tout est à peu près le même qu'avant si vous avez utilisé ce référentiel dans le passé, cependant, il existe une nouvelle option pour convertir la sortie texte à l'aide rvc . Avant de pouvoir l'utiliser, vous aurez besoin d'un fichier RVC .pth formé que vous obtenez de RVC ou en ligne, puis vous devrez le placer dans models/rvc_models/ . Les fichiers .index et .pth peuvent être placés ici et ils apparaîtront correctement dans leurs menus déroulants respectifs.

Pour activer rvc :

Cochez et activez Show Experimental Settings pour révéler plus d'options
Cochez et activez Run the outputter audio through RVC . Vous aurez désormais accès aux paramètres que vous pourrez ajuster dans RVC pour le modèle vocal RVC que vous utilisez.

Mise à jour de votre installation

Vous trouverez ci-dessous comment mettre à jour le package pour les dernières mises à jour

Fenêtres

REMARQUE : en cas de modification majeure des fonctionnalités, vérifiez la dernière version pour voir si update_package.bat fonctionnera. Si ce n’est pas le cas, vous devrez retélécharger et réextraire le package de Hugging Face.

Exécutez le fichier update_package.bat
- Il clonera le dépôt et copiera le dossier src du dépôt vers le package.

Installation manuelle alternative

Vous devriez pouvoir naviguer dans le dossier, puis extraire le dépôt pour le mettre à jour.

 cd ai-voice-cloning
git pull

Si des fonctionnalités importantes sont ajoutées, vous devrez peut-être supprimer le venv et réexécuter le script setup-cuda pour vous assurer qu'il n'y a pas de problèmes de package.

Linux via Docker

Vous devriez pouvoir naviguer dans le dossier, puis extraire le dépôt pour le mettre à jour, puis reconstruire votre image Docker.

 cd ai-voice-cloning
git pull
./setup-docker.sh

Documentation

Dépannage de l'installation manuelle

Le terminal est votre ami. Toutes les erreurs ou problèmes apparaîtront dans le terminal lorsque vous essaierez de l'exécuter, puis vous pourrez commencer le débogage à partir de là.

Si quelque part au cours du processus, la torche est gâchée, vous devrez peut-être la réinstaller. Vous devrez le désinstaller, puis le réinstaller comme suit. Assurez-vous de taper (Y) pour confirmer la suppression.

 .venvScriptsactivate.bat
pip uninstall torch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Rapport de bogues

Si vous rencontrez des problèmes, veuillez ouvrir un nouveau problème dans l'onglet Problèmes.

Conseils pour les développeurs

setup-cuda.bat devrait avoir tout ce dont vous avez besoin pour que les packages soient installés. Tous les différents fichiers d'exigences rendent le script assez compliqué, mais chaque dépôt a ses exigences installées, puis à la fin, le requirements.txt à la racine est nécessaire pour rétablir la version en versions compatibles pour ce dépôt.

Développer

Informations supplémentaires

Version v3.0
Type Autre code source
Date de mise à jour 2024-12-30
taille 17.38MB
Provenant de Github

Applications connexes

GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
Créateur d'IA

2023-04-23
IA de Jasper

2023-04-12
Alien AI

2022-07-29
Interface SMS illimitée GOOGLE VOICE

2009-11-07

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout