Hinweis: Ich habe nicht vor, aktiv an Verbesserungen/Erweiterungen für dieses Projekt zu arbeiten. Dies dient hauptsächlich dazu, das Repo in einem funktionsfähigen Zustand zu halten, für den Fall, dass der ursprüngliche git.ecker ausfällt oder notwendige Paketänderungen vorgenommen werden müssen.
Allerdings wurden im Vergleich zum ursprünglichen Repo einige Verbesserungen hinzugefügt:
✔️ Schulung in anderen Sprachen möglich
✔️ Hifigan hinzugefügt, was eine schnellere Schlussfolgerung auf Kosten der Qualität ermöglicht.
✔️ whisper-v3 als auswählbare Option für whisperx hinzugefügt
✔️ Ausgabekonvertierung mit RVC
Dies ist ein Fork des Repos, das sich ursprünglich hier befand: https://git.ecker.tech/mrq/ai-voice-cloning. Die gesamte Arbeit, die in die Integration des Trainings mit DLAS und der Inferenz mit Tortoise gesteckt wurde, gehört mrq, dem Autor des ursprünglichen Ai-Voice-Cloning-Repos.
Dieses Repo funktioniert unter Windows mit NVIDIA-GPUs und Linux, auf dem Docker mit NVIDIA-GPUs ausgeführt wird .
start.bat
aus Wenn Sie dies manuell installieren, benötigen Sie:
git clone https://github.com/JarodMica/ai-voice-cloning.git
setup-cuda.bat
aus und sie beginnt mit der Ausführung aller benötigten Python-Paketestart.bat
aus. Dadurch werden die meisten benötigten Modelle heruntergeladen.models
des Stammverzeichnisses.setup-whipserx.bat
ausführen Stellen Sie sicher, dass die neuesten NVIDIA-Treiber installiert sind: sudo ubuntu-drivers install
Installieren Sie Docker auf Ihre bevorzugte Weise. Eine Möglichkeit, dies zu tun, besteht darin, der offiziellen Dokumentation hier zu folgen.
Wenn Sie beim Starten des Voice-Cloning-Dockers eine Fehlermeldung erhalten, dass die GPU nicht verwendet werden kann, müssen Sie möglicherweise das Nvidia Docker Container Toolkit installieren.
Installieren Sie mit der Methode „apt“.
Führen Sie den Docker-Konfigurationsbefehl aus
sudo nvidia-ctk runtime configure --runtime=docker
Starten Sie Docker neu
Stellen Sie sicher, dass Ihre Nvidia-Treiber auf dem neuesten Stand sind: https://www.nvidia.com/download/index.aspx
wsl --install
und starten Sie neuubuntu
ein und geben Sie es ein. Es sollte Sie jetzt in wsl2 ladensudo apt-key del 7fa2af80
wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-4
ubuntu
ein und befolgen Sie die nachstehenden Anweisungen git clone https://github.com/JarodMica/ai-voice-cloning.git && cd ai-voice-cloning
./setup-docker.sh
./start-docker.sh
http://localhost:7860
oder remote mit http://<ip>:7860
Wenn der Remote-Server nicht erreichbar ist, lesen Sie diesen Thread
Möglicherweise müssen Sie auch Ihre lokalen Ordner den Docker-Ordnern neu zuordnen. Dazu müssen Sie das Skript „start-docker.sh“ öffnen und einige Zeilen aktualisieren. Wenn Sie beispielsweise Ihre generierten Audios leicht finden möchten, erstellen Sie einen Ordner „results“ im Stammverzeichnis und fügen Sie dann in „start-docker.sh“ die Zeile hinzu:
-v "your/custom/path:/home/user/ai-voice-cloning/results"
Schauen Sie sich das YouTube-Video an:
Zuerst ansehen: https://youtu.be/WWhNqJEmF9M?si=RhUZhYersAvSZ4wf
Second ansehen (RVC-Update): https://www.youtube.com/watch?v=7tpWH8_S8es&t=504s
Alles ist so ziemlich das Gleiche wie zuvor, wenn Sie dieses Repository in der Vergangenheit verwendet haben, es gibt jedoch eine neue Option zum Konvertieren von Textausgaben mit rvc
. Bevor Sie es verwenden können, benötigen Sie eine trainierte RVC-.pth-Datei, die Sie von RVC oder online erhalten, und müssen diese dann in models/rvc_models/
ablegen. Sowohl .index- als auch .pth-Dateien können hier platziert werden und werden in ihren jeweiligen Dropdown-Menüs korrekt angezeigt.
So aktivieren Sie RVC:
Show Experimental Settings
um weitere Optionen anzuzeigenRun the outputter audio through RVC
. Sie haben nun Zugriff auf Parameter, die Sie in RVC für das von Ihnen verwendete RVC-Sprachmodell anpassen können. Nachfolgend erfahren Sie, wie Sie das Paket auf die neuesten Updates aktualisieren können
HINWEIS: Wenn es größere Funktionsänderungen gibt, überprüfen Sie die neueste Version, um zu sehen, ob
update_package.bat
funktioniert. Wenn NICHT, müssen Sie das Paket von Hugging Face erneut herunterladen und extrahieren.
update_package.bat
ausSie sollten in der Lage sein, in den Ordner zu navigieren und dann das Repo abzurufen, um es zu aktualisieren.
cd ai-voice-cloning
git pull
Wenn umfangreiche Funktionen hinzugefügt werden, müssen Sie möglicherweise venv löschen und das Skript setup-cuda erneut ausführen, um sicherzustellen, dass keine Paketprobleme vorliegen
Sie sollten in der Lage sein, in den Ordner zu navigieren und dann das Repo abzurufen, um es zu aktualisieren, und dann Ihr Docker-Image neu zu erstellen.
cd ai-voice-cloning
git pull
./setup-docker.sh
Das Terminal ist dein Freund. Eventuelle Fehler oder Probleme werden im Terminal angezeigt, wenn Sie versuchen, es auszuführen, und dann können Sie von dort aus mit dem Debuggen beginnen.
.venvScriptsactivate.bat
pip uninstall torch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Wenn Sie auf Probleme stoßen, öffnen Sie bitte ein neues Problem auf der Registerkarte „Probleme“.
setup-cuda.bat
sollte alles enthalten, was Sie für die Installation der Pakete benötigen. All die unterschiedlichen Anforderungsdateien sorgen für ein ziemliches Durcheinander im Skript, aber in jedem Repo sind seine Anforderungen installiert, und am Ende wird die requirements.txt
im Stammverzeichnis benötigt, um die Version wieder in kompatible Versionen für dieses Repo zu ändern.