ai voice cloning Download - ai voice cloning Quellcode herunterladen

ai voice cloning

Anderer Quellcode

v3.0

Herunterladen

KI-Stimmenklonen

Hinweis: Ich habe nicht vor, aktiv an Verbesserungen/Erweiterungen für dieses Projekt zu arbeiten. Dies dient hauptsächlich dazu, das Repo in einem funktionsfähigen Zustand zu halten, für den Fall, dass der ursprüngliche git.ecker ausfällt oder notwendige Paketänderungen vorgenommen werden müssen.

Allerdings wurden im Vergleich zum ursprünglichen Repo einige Verbesserungen hinzugefügt:

✔️ Schulung in anderen Sprachen möglich

✔️ Hifigan hinzugefügt, was eine schnellere Schlussfolgerung auf Kosten der Qualität ermöglicht.

✔️ whisper-v3 als auswählbare Option für whisperx hinzugefügt

✔️ Ausgabekonvertierung mit RVC

Dies ist ein Fork des Repos, das sich ursprünglich hier befand: https://git.ecker.tech/mrq/ai-voice-cloning. Die gesamte Arbeit, die in die Integration des Trainings mit DLAS und der Inferenz mit Tortoise gesteckt wurde, gehört mrq, dem Autor des ursprünglichen Ai-Voice-Cloning-Repos.

Aufstellen

Dieses Repo funktioniert unter Windows mit NVIDIA-GPUs und Linux, auf dem Docker mit NVIDIA-GPUs ausgeführt wird .

Windows-Paket (empfohlen)

Optional, aber empfohlen: Installieren Sie 7zip auf Ihrem Computer: https://www.7-zip.org/
- Wenn bei der Extraktion Probleme auftreten, liegt dies höchstwahrscheinlich daran, dass Ihr 7zip veraltet ist ODER Sie einen anderen Extraktor verwenden.
Gehen Sie zur Registerkarte „Releases“ und laden Sie das neueste Paket auf Hugging Face herunter: https://github.com/JarodMica/ai-voice-cloning/releases/tag/v3.0
Extrahieren Sie das 7zip-Archiv.
Öffnen Sie ai-voice-cloning und führen Sie dann start.bat aus

Alternative manuelle Installation

Wenn Sie dies manuell installieren, benötigen Sie:

Python 3.11: https://www.python.org/downloads/release/python-311/
Git: https://www.git-scm.com/downloads

Klonen Sie das Repository

 git clone https://github.com/JarodMica/ai-voice-cloning.git

Führen Sie die Datei setup-cuda.bat aus und sie beginnt mit der Ausführung aller benötigten Python-Pakete
- Wenn Sie Python 3.11 nicht haben, funktioniert es nicht und Sie müssen es herunterladen
Wenn der Vorgang abgeschlossen ist, führen Sie start.bat aus. Dadurch werden die meisten benötigten Modelle heruntergeladen.
- Einige Modelle werden heruntergeladen, wenn Sie sie zum ersten Mal verwenden. Während der Generierung und beim Training (für Whisper) fallen zusätzliche Downloads an. Sobald sie jedoch fertig sind, müssen Sie sie nie wieder herunterladen, solange Sie sie nicht löschen. Sie befinden sich im models des Stammverzeichnisses.
(Optional) Sie können whisperx für das Training installieren, indem Sie setup-whipserx.bat ausführen
- Weitere Informationen finden Sie auf der Whisperx-Github-Seite. Für längere Audiodateien ist es jedoch viel schneller. Wenn Sie einen bereits geteilten Datensatz einzeln verarbeiten, verbessert sich die Geschwindigkeit dadurch nicht wesentlich.

Docker für Linux (oder WSL2)

Linux-spezifisches Setup

Stellen Sie sicher, dass die neuesten NVIDIA-Treiber installiert sind: sudo ubuntu-drivers install
Installieren Sie Docker auf Ihre bevorzugte Weise. Eine Möglichkeit, dies zu tun, besteht darin, der offiziellen Dokumentation hier zu folgen.
- Beginnen Sie mit der Deinstallation der alten Versionen
- Befolgen Sie die Repository-Installationsmethode „apt“.
- Überprüfen Sie, ob mit dem Container „hello-world“ alles funktioniert
Wenn Sie beim Starten des Voice-Cloning-Dockers eine Fehlermeldung erhalten, dass die GPU nicht verwendet werden kann, müssen Sie möglicherweise das Nvidia Docker Container Toolkit installieren.
- Installieren Sie mit der Methode „apt“.
- Führen Sie den Docker-Konfigurationsbefehl aus
  sudo nvidia-ctk runtime configure --runtime=docker
- Starten Sie Docker neu

Windows-spezifisches Setup

Stellen Sie sicher, dass Ihre Nvidia-Treiber auf dem neuesten Stand sind: https://www.nvidia.com/download/index.aspx

Installieren Sie WSL2 in PowerShell mit wsl --install und starten Sie neu
Öffnen Sie PowerShell, geben Sie ubuntu ein und geben Sie es ein. Es sollte Sie jetzt in wsl2 laden
Entfernen Sie den ursprünglichen NVIDIA-Cache-Schlüssel: sudo apt-key del 7fa2af80
Laden Sie den CUDA-Toolkit-Schlüsselbund herunter: wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
Schlüsselbund installieren: sudo dpkg -i cuda-keyring_1.1-1_all.deb
Paketliste aktualisieren: sudo apt-get update
Installieren Sie das CUDA-Toolkit: sudo apt-get -y install cuda-toolkit-12-4
Installieren Sie Docker Desktop mit WSL2 als Backend
Neustart
Wenn Sie das Terminal per SSH aus der Ferne überwachen möchten, befolgen Sie diese Anleitung.
Öffnen Sie PowerShell, geben Sie ubuntu ein und befolgen Sie die nachstehenden Anweisungen

Erstellen und Ausführen in Docker

Öffnen Sie ein Terminal (oder Ubuntu WSL)
Klonen Sie das Repository: git clone https://github.com/JarodMica/ai-voice-cloning.git && cd ai-voice-cloning
Erstellen Sie das Image mit ./setup-docker.sh
Starten Sie den Container mit ./start-docker.sh
Besuchen Sie http://localhost:7860 oder remote mit http://<ip>:7860

Wenn der Remote-Server nicht erreichbar ist, lesen Sie diesen Thread

Möglicherweise müssen Sie auch Ihre lokalen Ordner den Docker-Ordnern neu zuordnen. Dazu müssen Sie das Skript „start-docker.sh“ öffnen und einige Zeilen aktualisieren. Wenn Sie beispielsweise Ihre generierten Audios leicht finden möchten, erstellen Sie einen Ordner „results“ im Stammverzeichnis und fügen Sie dann in „start-docker.sh“ die Zeile hinzu:

-v "your/custom/path:/home/user/ai-voice-cloning/results"

Anweisungen

Schauen Sie sich das YouTube-Video an:

Zuerst ansehen: https://youtu.be/WWhNqJEmF9M?si=RhUZhYersAvSZ4wf

Second ansehen (RVC-Update): https://www.youtube.com/watch?v=7tpWH8_S8es&t=504s

Alles ist so ziemlich das Gleiche wie zuvor, wenn Sie dieses Repository in der Vergangenheit verwendet haben, es gibt jedoch eine neue Option zum Konvertieren von Textausgaben mit rvc . Bevor Sie es verwenden können, benötigen Sie eine trainierte RVC-.pth-Datei, die Sie von RVC oder online erhalten, und müssen diese dann in models/rvc_models/ ablegen. Sowohl .index- als auch .pth-Dateien können hier platziert werden und werden in ihren jeweiligen Dropdown-Menüs korrekt angezeigt.

So aktivieren Sie RVC:

Aktivieren und aktivieren Sie Show Experimental Settings um weitere Optionen anzuzeigen
Aktivieren und aktivieren Sie Run the outputter audio through RVC . Sie haben nun Zugriff auf Parameter, die Sie in RVC für das von Ihnen verwendete RVC-Sprachmodell anpassen können.

Aktualisieren Ihrer Installation

Nachfolgend erfahren Sie, wie Sie das Paket auf die neuesten Updates aktualisieren können

Windows

HINWEIS: Wenn es größere Funktionsänderungen gibt, überprüfen Sie die neueste Version, um zu sehen, ob update_package.bat funktioniert. Wenn NICHT, müssen Sie das Paket von Hugging Face erneut herunterladen und extrahieren.

Führen Sie die Datei update_package.bat aus
- Es klont das Repo und kopiert den Ordner src vom Repo in das Paket.

Alternative manuelle Installation

Sie sollten in der Lage sein, in den Ordner zu navigieren und dann das Repo abzurufen, um es zu aktualisieren.

 cd ai-voice-cloning
git pull

Wenn umfangreiche Funktionen hinzugefügt werden, müssen Sie möglicherweise venv löschen und das Skript setup-cuda erneut ausführen, um sicherzustellen, dass keine Paketprobleme vorliegen

Linux über Docker

Sie sollten in der Lage sein, in den Ordner zu navigieren und dann das Repo abzurufen, um es zu aktualisieren, und dann Ihr Docker-Image neu zu erstellen.

 cd ai-voice-cloning
git pull
./setup-docker.sh

Dokumentation

Fehlerbehebung bei der manuellen Installation

Das Terminal ist dein Freund. Eventuelle Fehler oder Probleme werden im Terminal angezeigt, wenn Sie versuchen, es auszuführen, und dann können Sie von dort aus mit dem Debuggen beginnen.

Wenn der Brenner irgendwo im Prozess kaputt geht, müssen Sie ihn möglicherweise neu installieren. Sie müssen es deinstallieren und dann wie folgt neu installieren. Geben Sie unbedingt (Y) ein, um den Löschvorgang zu bestätigen.

 .venvScriptsactivate.bat
pip uninstall torch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Fehlerberichterstattung

Wenn Sie auf Probleme stoßen, öffnen Sie bitte ein neues Problem auf der Registerkarte „Probleme“.

Tipps für Entwickler

setup-cuda.bat sollte alles enthalten, was Sie für die Installation der Pakete benötigen. All die unterschiedlichen Anforderungsdateien sorgen für ein ziemliches Durcheinander im Skript, aber in jedem Repo sind seine Anforderungen installiert, und am Ende wird die requirements.txt im Stammverzeichnis benötigt, um die Version wieder in kompatible Versionen für dieses Repo zu ändern.

Expandieren

Zusätzliche Informationen