TTS -Generation Webui / Mundharmonica
Download Installer || Installation || Docker Setup || Feedback- / Fehlerberichte

Modelle
Text-to-Speech | Audio-/Musikgeneration | Audio -Konvertierung/Tools |
---|
Bellen | Musikgen | RVC |
Schildkröte | Magnet | Demucs |
Maha tts | Stabiler Audio | Vokos |
MMS | (Erweiterung) Riffusion | Flüstern |
Vall-e x | (Erweiterung) Audiocraft Mac | |
Styletts2 | (Erweiterung) Audiocraft Plus | |
Seamlessm4t | | |
(Erweiterung) XTTSV2 | | |
(Erweiterung) Mars5 | | |
(Erweiterung) F5-TTS | | |
(Erweiterung) Parler TTS | | |
Bark.narration.mp4 | Bark.japanese.mp4 | MusicGen.mp4 |
---|
Changelog
23. November:
- Fügen Sie Linux Fairseq Wheel für eine bessere PIP -Kompatibilität hinzu.
22. November:
- Wechseln Sie zu Rädern und fügen Sie eine Eingabeaufforderung für die Einstellung hinzu.
15. November:
- Upgrade auf Gradio 5.5.0, add add Ensble Enhance (#420)
14. November:
- Fügen Sie experimentelles Windows Deepspeed -Rad hinzu.
- Fügen Sie mehr Sprachen zum Bellen des Sprachklones hinzu.
11. November:
- Wechseln Sie zu einer festen Fairseq -Version für Windows -Reduktionsinstallationskonflikte und beschleunigen Updates.
Oktober 2024
28. Oktober:
- Installationstests, Modell-Downloader und PIP-CPU-Option für Torch hinzugefügt.
24. Oktober:
- Durch einen Fehler auf 5.1.0 auf 5.1.0 herabgestuft.
- Test -Workflows und minderwertige Fehler hinzugefügt.
22. Oktober:
- Behobene Dockerfile -Probleme für einen reibungsloseren Einsatz.
21. Oktober:
- Neu gestaltete Readme: Verbesserte Flüstererweiterung, fügte ChangeLogs für August, September und Oktober hinzu, aktualisierte Screenshots und neu organisierte Inhalte.
19. Oktober:
- Behobene Erweiterungsprotokolle und neue Erweiterungen hinzugefügt.
18. Oktober:
- Systemverbesserungen: formatiertes Projekt, behobene
xformers+cuda
Installieren, Protokollsysteme hinzugefügt, die Erweiterung der Erweiterung und F5 TTS hinzugefügt.
16. Oktober:
- Zuerst verwendet jetzt
pip
anstelle von uv
. - Gestoßete Majorversion und behoben Google Colab.
- Pip Fallback zum stabilen Audio hinzugefügt.
- Demucs behoben, den Postgres -Port geändert.
- Behobene
huggingface_hub
Installation und Rindenmodellloader. - Hauptverbesserungen: Auf Gradio 5 umgeschaltet, fauler Laden für Registerkarten, Docker -Korrekturen, optimierte UI -Geschwindigkeit, hinzugefügte .Env.User -Funktion, verbesserte Protokolle und verbesserte React UI -Erweiterungen.
3. Oktober:
- Die Registerkarte GPU-Info behoben und
nvidia-ml-py
hinzugefügt. - Erstellte Problemumgehung für Audiocraft Install -Fehler.
- Die automatische MSVC -Installation behoben und den Server auf
127.0.0.1
festlegen. - Behoben
.git_version
Pfad und entferntes iconv
, um die Anforderungen node-gyp
zu beseitigen. - Verbessertes Installationsprogramm Fehlerbehebung, addieren Sie upgrade Hash -Protokollierung.
- Upgrade node.js auf 22.9.0, postgresql -Unterstützung hinzugefügt, gruppierte Registerkarten in React UI.
September 2024
Klicken Sie hier, um zu erweitern
23. September:
- Verwenden Sie CUDA automatisch für MMS.
22. September:
- FFMPEG -Metadatenverlängerung hinzugefügt, um UI zu reagieren.
- Maha TTS nur Mono-Kündigungen hinzugefügt.
- Hotfix, um den Knoten 20.17.0 Installationsfehler zu vermeiden.
21. September:
- Stabile Audio -Demo hinzugefügt, um die Benutzeroberfläche zu reagieren.
- Verbessertes UI -Layout.
19. September:
- Verbesserter React UI Visueller Look mit neuen Schiebereglern und besserem Layout.
- Optimierte RVC -UI, Colab behoben und ein Suchbefehlsfeld hinzugefügt.
- Upgrade node.js auf 20.17.0.
2. September:
- Dockerfile festgelegt und aktualisiert docker-compose.yml.
- Fehler beim Laden von NPZ behoben.
August 2024
Klicken Sie hier, um zu erweitern
31. August:
- Upgrade -Modellinferenz -Framework auf Dekoratoren.
- Verschiebte Python -Dateien von
src
in den Ordner tts_webui
. - Schreiben Sie die MusicGen -Registerkarte und behoben verwandte Fehler.
20. August:
- Auf Gradio 4 aktualisiert und ein Thema hinzugefügt.
- Modellladennachrichten für Schildkröte hinzugefügt.
- Reactuis RVC festgelegt.
- Überblicklichte Hyperparameter.
- Die Verwaltung der Erweiterung der Erweiterung der Erweiterungen, XTTS-Simple, hinzugefügt.
5. August:
- Rinde in React UI reparieren, maximale Erzeugungsdauer hinzufügen.
- Änderung von Audiocraft Plus -Erweiterungsmodellen Verzeichnis in ./data/models/audiocraft_plus/
- Verbesserung des Modells für Musikgen und Audiogen. Fügen Sie MusicGen und Audiogen die Schaltfläche Modelle hinzu.
- Fügen Sie die Erweiterung der Huggingface -Cache -Manager hinzu.
4. August:
- Fügen Sie XTS-RVC-UI-Erweiterung hinzu, XTTS Fine-Tuning Demo-Erweiterung.
3. August:
- Fügen Sie Riffusion Extension, Audiocraft MAC -Erweiterung, Rinde Legacy -Erweiterung hinzu.
2. August:
- Fügen Sie dem alten Installateur eine Abschaltwarnung hinzu.
- Vermitteln Sie die Fehlerbehandlung und vereinfachen Sie die Registerkartenbelastung.
1. August:
- Fügen Sie "Versuchs -Update" für externe Erweiterungen hinzu.
- Überspringen Sie die Wiederinstallationspakete, wenn die Version von PIP_Packages nicht geändert wird.
- Synchronisieren Sie den Gradio -Port mit React UI.
- Ändern Sie den Standard -Gradio -Port von 7860 auf 7770.
Juli 2024
Klicken Sie hier, um zu erweitern
31. Juli:
- Fix React UIs MusicGen, nachdem sich der Gradio ändert.
- Fügen Sie die Schaltfläche Entladen hinzu, um die Erweiterung zu flüstern.
29. Juli:
- Ändern Sie FFMPEG auf 4.4.2 von Conda-forge, um weitere Plattformen, einschließlich Mac M1, zu unterstützen.
- Schildkröte CVVP deaktivieren.
26. Juli:
- Flüsterweiterung
- Experimentelle AMD ROCM Installation Support. (Nur Linux)
25. Juli:
- Fügen Sie diagnostische Skripte für macOS und Linux hinzu.
- Fügen Sie bessere Fehlerdetails für Registerkarten hinzu.
- Fix .SH -Skript -Ausführungsberechtigungen für die Installateure unter Linux und MacOS.
21. Juli:
- Fügen Sie die Erweiterung der Galerieverlauf hinzu (adaptiert aus der alten Galerieansicht)
- Konvertieren Sie den einfachen Remixer in Erweiterung
- Reparieren update.py, um die neueren Fackelversionen zu verwenden (update.py dient nur für alte Zwecke und wird wahrscheinlich brechen)
- Fügen Sie diagnostisches Skript hinzu und erzwingen Sie die Neuinstallation von Skripten für Windows.
20. Juli:
- Fix Discord Join Link
- Vereinfachen Sie die Rinde weiter und beseitigen Sie eine übermäßige Komplexität im Code.
- Fügen Sie UI/Modulare Erweiterungen hinzu, diese Erweiterungen ermöglichen die Installation neuer Modelle und Funktionen in der Benutzeroberfläche. In Zukunft werden Modelle als Erweiterungen beginnen, bevor sie leicht hinzugefügt werden.
- Deaktivieren Sie die Galerieansicht in Ausgaben
- Bekanntes Problem: Firefox kann in Gradio Ausgänge nicht angezeigt, und es fällt aus, sie aus dem Backend abzurufen. Innerhalb von React UI funktioniert dies einwandfrei.
15. Juli:
- Kommentar - Da die React -UI schon lange aus ist, wird Gradio UI die Rolle spielen, nur die Funktionen dem Benutzer zu dienen, ohne die äußerst komplizierte Benutzeroberfläche, die sie nicht bewältigen kann. Es gibt einen echten Mangel an Entwicklungszeit, um neue Modelle und Funktionen hinzuzufügen, aber der alte Integrationsstil war nicht rentabel. Da die neuen APIs und die Rolle des Modells definiert sind, besteht es möglich, Erweiterungen für ganze Modelle zu haben, um viel mehr Flexibilität und leichtere Installationen zu ermöglichen.
- Starten Sie die Skalierung von Gradio UI -Komplexität - Entfernung an RVC/Demucs/Voice -Tasten. (Entfernen Sie die interne Komponente Joutai).
- Fügen Sie Version.json für bessere Updates in der Zukunft hinzu.
- Reduzieren Sie die maximale Anzahl von Ausgängen auf 1.
- Fügen Sie die Schalttaste des Entladens von Entladen hinzu, entladen Sie das Modell, bevor Sie die nächsten/ändern/ändern. Die Parameter wechseln, sodass Tortoise während der Einstellungsänderung nicht mehr 2x -Modellspeicher verwendet wird.
14. Juli:
- Gruppieren Sie Gradio Registerkarten in Gruppen - Text zu Sprache, Audiokonvertierung, Musikgenerierung, Ausgaben und Einstellungen
- Reinigen Sie den Header und fügen Sie Link für Feedback hinzu
- Fügen Sie Samenkontrolle zu stabilem Audio hinzu
- Beheben Sie den stabilen Audio -Dateiname -Fehler mit Newlines
- Deaktivieren Sie "Simple Remixer" Gradio -Registerkarte "
- Fix Bark Spoice Clone & RVC noch einmal
- Fügen Sie "installierte Pakete" zu Debugging hinzu
13. Juli:
- Hauptverbesserung auf Torch 2.3.1 und Xformers 0.0.27
- Alle Benutzer, einschließlich Mac und CPU, haben jetzt die gleiche Pytorch -Version.
- Upgrade CUDA auf 11,8 aktualisieren
- Zwingen Sie Python zu 3.10.11
- Ändern Sie das Installationsprogramm, um das Upgrade von Python und Torch ohne Neuinstallation zu ermöglichen (derzeit Hauptversion 2)
- Beheben Sie Magnet -Standardparameter für eine bessere Qualität
- Verbessern Sie die Überprüfungen des Installationskripts, um Fehler zu vermeiden
- Aktualisieren Sie Styletts2
11. Juli:
- Verbesserung der Dateinamen der Audiogenerierung
- Fügen Sie Kraft hinzu, die die Fackelreparatur neu installieren
- Machen Sie das Installationsprogramm vor dem Ausführen automatisch
9. Juli:
- Reparieren Sie neue Installations- und Installationsanweisungen dank https://github.com/xeraster!
8. Juli:
- Ändern Sie den Installationsprozess, um Paketkonflikte zu reduzieren und die Flexibilität der Fackelversion zu aktivieren.
6. Juli:
- Erstveröffentlichung von New Mamba -basiertem Installateur.
- Speichern Sie stabile Audioergebnisse in Outputs-RVC/StableAudio-Ordner.
- Fügen Sie einer stabilen Audiomodellauswahl einen Haftungsausschluss hinzu und zeigen Sie bessere Fehlermeldungen, wenn Dateien fehlen.
1. Juli:
- Optimieren Sie den stabilen Audiospeicherverbrauch nach der Generation.
- Open React UI nur automatisch, wenn Gradio auch automatisch eröffnet wird.
- Entfernen Sie unnötige Conda Git neu.
- Aktualisierung des neuesten stabilen Audios mit MPS -Unterstützung (erfordert neuere Fackelversionen).
Juni 2024
Klicken Sie hier, um zu erweitern
22. Juni: * Fügen Sie Gradio stabiler Audio hinzu. 21. Juni:
- Fügen Sie Vall-ex-Demo hinzu, um die Benutzeroberfläche zu reagieren.
- Open React UI automatisch im Browser, beheben Sie den Link erneut.
- Fügen Sie auf der Länge auf, um zu reagieren/Schildkröte.
- Fix UVR5 -Demo -Ordner.
- Stellen Sie die FairSeq -Version für Linux und Mac auf 0,12.2 fest. (#323)
- Verbesserung der Erzeugungsgeschichte für alle React UI -Registerkarten.
17. Mai:
- Schildkrötenvoreinstellungen in React UI reparieren.
9. Mai:
- Fügen Sie MMS hinzu, um die Benutzeroberfläche zu reagieren.
- Verbesserung der React UI und Codebasis.
4. Mai:
- Gruppenveränderung für Monat
April 2024
Klicken Sie hier, um zu erweitern
28. April: * Fügen Sie Maha Tts hinzu, um die UI zu reagieren. * GPU -Informationen hinzufügen, um die Benutzeroberfläche zu reagieren. 6. April:
- Fügen Sie die Registerkarte "Vall-Ex-Generation Demo hinzu.
- Fügen Sie MMS Demo -Registerkarte hinzu.
- Fügen Sie die Registerkarte "Maha tts Demo hinzu.
- Fügen Sie Styletts2 -Demo -Registerkarte hinzu.
5. April:
- Beheben Sie den RVC -Installationsfehler.
- Fügen Sie die grundlegende Registerkarte UVR5 -Demo hinzu.
4. April:
- Upgrade RVC auf RVMPE und FCPE einbeziehen. Entfernen Sie die Direktdateieingabe für Modelle und Indizes aufgrund einer Dateivervielfältigung. Verbesserung der React UI -Schnittstelle für RVC.
März 2024
Klicken Sie hier, um zu erweitern
28. März:
- GPU -Info -Registerkarte hinzufügen
27. März:
- Fügen Sie Informationen über das Sprachklonen zum Registerkarten -Sprachklon hinzu
26. März:
- Fügen Sie Maha TTS Demo Notebook hinzu
22. März:
- Vall-e x Demo über Notebook (#292)
- Fügen Sie React UI zum Docker -Bild hinzu
- Fügen Sie Installation Haftungsausschluss hinzu
16. März:
- Aktualisieren Sie Vocos auf 0,1,0
14. März:
13. März:
- Experimentelle Pipeline hinzufügen (Rinden / Schildkröten / Musicgen / Audiogen / Magnet -> RVC / Demucs / Vocos) (#287)
- Beheben Sie den RVC -Fehler mit dem Modell neu, das für jede Generation neu lädt. Für kurze Eingänge, die zu einer sichtbaren Beschleunigung führen.
11. März:
- Fügen Sie das Spiel als Audio hinzu und speichern Sie Stimmen auf Rinde (#286)
- Ändern Sie UX, um zu zeigen, dass Dateien aus Favoriten gelöscht werden
- Beheben Sie Bilder für Rindenstimmen, die nicht angezeigt werden
- Reparieren Sie die Audio -Wiedergabe in den Favoriten
10. März:
- Fügen Sie die Charge hinzu, um den UI -Magneten zu reagieren (#283)
- Fügen Sie Audio zu Audioübersetzung zu SeamlessM4T hinzu (#284)
5. März:
- Fügen Sie die Batching hinzu, um UI MusicGen (#281) zu reagieren, dank https://github.com/aamir3d, um dies zu beantragen und Feedback bereitzustellen
3. März:
- Fügen Sie MMS -Demo als Notizbuch hinzu
- Fügen Sie MultibandDiffusion High VRAM Haftungsausschluss hinzu
Februar 2024
Klicken Sie hier, um zu erweitern
21. Februar:
- Fix Docker-Container-Builds und Fehler mit Docker-Audioktraft
8. Februar:
- Beheben Sie MultibandDiffusion für MusicGen -Stereo -Modelle, danke https://github.com/mykeehu
- Fix Node.js Installationsschritte auf Google Colab, Code von https://github.com/miaohf
6. Februar:
- Fügen Sie die Erweiterung der FLAC -Dateigenerierung von https://github.com/joachip hinzu
Januar 2024
Klicken Sie hier, um zu erweitern
21. Januar:
- Fügen Sie mit jedem Update CPU/M1-Torch Auto-Repair-Skript hinzu. Um zu deaktivieren, bearbeiten Sie check_cuda.py und ändern Sie force_no_repair = true
16. Januar:
- Aktualisieren Sie MusicGen und fügen Sie Unterstützung für Stereo- und große Melodienmodelle hinzu
- Magnet hinzufügen
15. Januar:
- Upgradio auf 3.48.0 verbessert
- Wenn sie kritisch sind, melden Sie sie oder downgrade gradio.
- Gradio: Nutzlose Warnungen unterdrücken
- Supress Triton Warnungen
- Gradio-Bark: Beheben Sie "Verwenden Sie die letzte Generation als Verlauf" Verhalten, leere Auswahl keine Fehler mehr
- Verbesserung der Verlängerungsladeranzeige
- Aktualisieren Sie Transformatoren auf 4.36.1 von 4.31.0 auf 4,36.1
- Fügen Sie SeamlessM4T -Demo hinzu
14. Januar:
- React UI: Fehlende Verzeichnisfehler beheben
13. Januar:
- React UI: Fehlende fehlende NPM -Build -Schritt von der automatischen Installation beheben
12. Januar:
- React UI: Beheben von Namen für Audioaktionen
- Gradio: Mehrere API -Warnungen beheben
- Integration - React UI jetzt wird neben Gradio mit einem Link zum Öffnen gestartet
11. Januar:
- Reagieren Sie UI: Machen Sie das Build ohne Fehler funktioniert
9. Januar:
- Reagieren ui
- Fix 404 Handler für Wavesurfer
- Gruppenrinde mit Registerkarten zusammen
8. Januar:
2023
Klicken Sie hier, um zu erweitern
Oktober 2023
26. Oktober:
- Verbesserung der Modellauswahl UX für MusicGen
24. Oktober:
- Fügen Sie die erste React UI für MusicGen und Demucs hinzu (#202)
- Saatgut von Rinde Long Generation Saatgut reparieren (dank https://github.com/520pig520)
September 2023
21. September:
- Rinde: Fügen Sie weiter als semantische Historie -Taste hinzu
- Wechseln Sie zu Github Docker Bildspeicher, neues Docker -Bild:
-
docker pull ghcr.io/rsxdalv/tts-generation-webui:main
- Beheben der Option Server_port in Config #168 dank https://github.com/dartvauderer
9. September:
- Reparieren Sie die XDG-Open-Befehlszeile dank https://github.com/jfronny
- Dank https://github.com/slack-t und https://github.com/bkutasi
- Fügen Sie die Schaltfläche "Entladen" -Modell hinzu, um zu bellen, wie von https://github.com/aamir3d angefordert
- Fügen Sie Rindendetails zu Readme_Bark.md hinzu, wie von https://github.com/maki9009 angefordert
- Fügen Sie "optional" hinzu, um die Eingabeaufforderung dank https://github.com/maki9009 einzubinden.
5. September:
- Fügen Sie die Sprachmischung zum Bellen hinzu
- Fügen Sie V1 -Verbrennungen in der Eingabeaufforderung zu Rinde hinzu (Verbrennungen in Eingabeaufforderungen dienen zum Anweisungen des semantischen Modells, ohne Zeit für die Erzeugung des Audios zu verbringen. Das V1 funktioniert, indem die semantischen Token generiert und dann als Eingabeaufforderung für das semantische Modell verwendet werden.)
- Fügen Sie den Erzeugungslängenbegrenzer zum Bellen hinzu
August 2023
27. August:
- Fix Musicgen, das die Melodie #153 ignoriert
26. August:
- Senden Sie Senden Sie an RVC, Demucs, Vocos -Tasten an Rinde und Vocos
24. August:
- Fügen Sie den RVC -Ausgängen Datum hinzu, um #147 zu beheben
- Fehlen von SafeTensoren fehlen Rad
- Fügen Sie Sende an die Demucs -Schaltfläche zum MusicGen hinzu
21. August:
- Fügen Sie Tolchvision Installation in Colab für MusicGen Issue Fix hinzu
- Entfernen Sie die Protokollierung der RVC_TAB -Datei
20. August:
- Beheben Sie MBD, indem Sie Hydra-Core am Ende eines Update neu installieren
18. August:
- CI: Fügen Sie eine GitHub -Aktion hinzu, um das Docker -Image automatisch zu veröffentlichen.
16. August:
- Fügen Sie "Name" zu Schildkröten -Generationsparametern hinzu
15. August:
- Pin -Torch auf 2.0.0 in allen Anforderungen.txt -Dateien
- Beule Audiocraft- und Rindenversionen
- Entfernen Sie Schildkrötentransformers Fix von Colab
- Aktualisieren Sie die Schildkröte auf 2.8.0
13. August:
- Potenziell große Fix für neue Benutzerinstallationen, die Probleme hatten, mit der GPU nicht unterstützt wurde
11. August:
- Schildkröte Hotfix dank Manmay-Nakhashi
- Fügen Sie eine Schildkrötenoption hinzu, um den Tokenizer zu wechseln
8. August:
- Aktualisieren Sie Audiocraft, Verbesserung der MultibandDiffusion -Leistung
- Fix Tortoise Parameter 'Cond_free' Mismatch mit 'ultra_fast' voreingestellter
7. August:
- Fügen Sie Colab Tiefspeed Fix hinzu
6. August:
- Fix Audiogen + MBD -Fehler, fügen Sie Tortoise Fix für Colab hinzu
4. August:
- Fügen Sie MusicGen #109 eine MultibandDiffusion -Option hinzu
- MusicGen/Audiogen speichern Token auf der Generation als .npz -Dateien.
3. August:
- Fügen Sie Audiogen #105 hinzu
2. August:
- MODEL -PORILIKATIONEN IST NICHT AMGENSTARTEN
Juli 2023
26. Juli:
- Sprachgalerie
- Sprachschneider
- Fix Voice -Umbenennen Sie den Fehler um, benennen Sie das Bild auch um, fügen Sie eine Hash -Textbox hinzu
- Einfacheres Herunterladen von Stimmen (#98)
24. Juli:
- Ändern Sie das Bark -Dateiformat, um den Hash Hash: ... Contest_Generation ... -> ... von_3ea0D063 ...
23. Juli:
- Docker -Bild dank https://github.com/jonfairbanks
- RVC UI -Namensverbesserungen
21. Juli:
- Beheben Hubert arbeitet nicht nur mit CPU zusammen (#87)
- Fügen Sie Google Colab Demo (#88) hinzu
- Neue Einstellungen Registerkarte und Modellorte (für erweiterte Benutzer) (#90)
19. Juli:
- Fügen Sie Schildkrötenoptimierungen hinzu, vielen Dank https://github.com/manmay-nakhashi #79 (implements #18)
16. Juli:
- Sprachfoto Demo
- Fügen Sie ein Verzeichnis hinzu, um RVC -Modelle/-indizes in und einen Dropdown -Bereich zu speichern
- Problemumgehung RVC, der IS_HALF für CPU #74 nicht respektiert
- Schildkrötenmodell und Sprachauswahl Verbesserungen #73
10. Juli:
9. Juli:
- RVC -Demo + Tortoise, V6 -Installationsprogramm mit Update -Skript und automatische Versuche, zusätzliche Module #66 zu installieren
5. Juli:
- Verbesserter V5 -Installationsprogramm - schneller und zuverlässiger #63
2. Juli:
- Upgrade -Rindeneinstellungen #59 aktualisieren
1. Juli:
Juni 2023
29. Juni:
- Schildkröte neue Params #54
27. Juni:
- Beheben Sie eifrige Ladefehler, Refactor #50
20. Juni
- Schildkröte: Angemessene Dateien der Langformform Generation #46
19. Juni
18. Juni:
- Aktualisieren Sie zu dem neuesten Audiookraft und fügen Sie längere Generationen hinzu
14. Juni:
- Fügen Sie Vocos WAV Tab #42 hinzu
5. Juni:
- Beheben Sie die Schaltfläche "Save to Favorites" auf der Seite "Rinde Generation", "Console" (v4.1.1) aufräumen.
- Fügen Sie "Sammlungs" -Rist für die Verwaltung verschiedener Datensätze und eine einfachere Curation hinzu.
4. Juni:
- Aktualisieren Sie V4.1 - Verbesserte Hash -Funktion, Codeverbesserungen
3. Juni:
- Update auf V4 - Neue Ausgabestruktur, verbesserte Verlaufsansicht, Codebasis -Reorganisation, verbesserte Metadaten, Ausgangserweiterungen Unterstützung
Mai 2023
21. Mai:
- Update auf V3 - Voice Clone Demo
17. Mai:
- Update auf V2 - Generieren Sie Ergebnisse, wie sie angezeigt werden, Vorschau Lange Eingabeaufforderung Generationen Stück für Stück, Aktivieren Sie bis zu 9 Ausgänge, UI -Optimierungen
16. Mai:
- Fügen Sie die Registerkarte "Gradio Settings" hinzu, beheben Sie Gradio -Fehler in der Konsole, verbessern Sie die Protokollierung.
- Aktualisieren Sie den Verlauf und die Favoriten mit "Verwendung als Stimme" und "Sprachspeicher" -Tasten
- Fügen Sie die Registerkarte Stimmen hinzu
- Rinde Registerkarte: Entfernen Sie "oder verwenden Sie die letzte Generation als Geschichte"
- Verbesserung der Codeorganisation
13. Mai:
- Aktivieren Sie die deterministische Erzeugung und verbessern Sie erzeugte Protokolle. Credits an Suno-AI/Bark#175.
10. Mai:
- Aktivieren Sie die Möglichkeit, die Geschichte von älteren Generationen wiederzuverwenden. Speichern Sie Generationen als NPZ -Dateien. Fügen Sie eine bequeme Methode hinzu, um die letzten drei Generationen für die nächsten Eingabeaufforderungen wiederzuverwenden. Fügen Sie eine Schaltfläche zum Speichern und Sammeln von Verlaufsaufforderungen unter /Stimmen hinzu. #10
4. Mai:
- Langformgenerierung (Credits an https://github.com/suno-ai/Bark/blob/main/notebooks/long_form_generation.ipynb und suno-ai/bark#161)
- Anpassen an feste Env var -Fehler
3. Mai:
- Verbesserte Schildkröten -UI: Voice-, Preset- und CVVP -Einstellungen sowie Fähigkeit, 3 Ergebnisse zu generieren (#6)
2. Mai:
- Unterstützung für die Recylcing des Verlaufs hinzugefügt, um längere Aufforderungen manuell fortzusetzen
- Unterstützung für V2 -Eingaben hinzugefügt
Vor:
- Unterstützung für Schildkröten -TTs hinzugefügt
Upgrade (für alte Installationen)
Bei Problemen können Sie sich gerne an die Entwickler wenden .
Klicken Sie hier, um zu erweitern
Upgrade von V6 auf New Installer
Empfohlen: Frische Installation
- Laden Sie die neue Version herunter und führen Sie die start_tts_webui.bat (Windows) aus oder starten_tts_webui.sh (macOS, Linux) aus.
- Sobald es fertig ist, schließen Sie den Server.
- Empfohlen: Kopieren Sie die alten Generationen in das neue Verzeichnis, z.
- Mit Vorsicht: Sie können das gesamte neue TTS-Generation-Webui-Verzeichnis über das alte kopieren, aber es gibt möglicherweise einige alte Dateien, die verloren gehen.
In-Place-Upgrade können einige Dateien gelöscht, Optimierungen
- Aktualisieren Sie die vorhandene Installation über das Skript von Update_ Plattform
- Nach dem Update führen Sie die neuen start_tts_webui.bat (Windows) oder start_tts_webui.sh (macOS, Linux) innerhalb des TTS-Generation-Webui-Verzeichnisses aus
- Sobald der Server startet, prüfen Sie, ob er funktioniert.
- Mit Vorsicht: Wenn der neue Server im Verzeichnis One-Click-Installers funktioniert, löschen Sie die alten Installer_files.
Gibt es eine optimale Möglichkeit, dies zu tun?
Nicht genau, die Abhängigkeiten kontaktieren, insbesondere zwischen Conda und Python (und Abhängigkeiten befinden sich bereits in einem kritischen Zustand, und es ist eine Möglichkeit, sie nach Conda zu bewegen). Daher ist es zwar möglich, den alten Installateur durch das neue zu ersetzen und das Update auszuführen, die Probleme sind daher unvorhersehbar und unfehlbar . Das Erstellen eines Updates für das Installationsprogramm erfordert viele Tests, sodass es nicht leichtfertig durchgeführt wird.
Installation
- Laden Sie die neueste Version herunter und extrahieren Sie sie.
- Führen Sie start_tts_webui.bat oder start_tts_webui.sh aus, um den Server zu starten. Sie werden aufgefordert, den von Ihnen verwendeten GPU/Chip auszuwählen. Sobald alles installiert wurde, startet der Gradio -Server unter http: // localhost: 7770 und die react ui unter http: // localhost: 3000.
- Das Ausgabeprotokoll ist in der Datei installer_scripts/output.log verfügbar.
Manuelle Installation (nicht empfohlen)
Diese Anweisungen spiegeln möglicherweise nicht alle neuesten Korrekturen und Anpassungen wider, können jedoch als Referenz für das Debuggen oder das Verständnis des Installationsprogramms nützlich sein. Hoffentlich können sie eine Grundlage für die Unterstützung neuer Plattformen wie AMD/Intel sein.
Installieren Sie Conda (https://docs.conda.io/projects/conda/en/latest/user-guide/install/index.html)
- (Windows) Installieren Sie Visual Studio Compiler/Visual Studio Build-Tools https://visualstudio.microsoft.com/visual-cpp-build-tools/
Richten Sie eine Umgebung ein: conda create -n venv
Installieren Sie Git, Node.js conda install -y -c conda-forge git python=3.10.11 conda-forge::nodejs=22.9.0 conda pip==23.3.2 conda-forge::uv=0.4.17 conda-forge::vswhere
a) Entweder fahren Sie mit dem Installationsproskript fort
- Aktivieren Sie die Umgebung:
conda activate venv
und -
(venv) node installer_scriptsinit_app.js
- Führen Sie dann den Server mit
(venv) python server.py
aus
b) oder die Anforderungen manuell installieren
- Pytorch mit CUDA oder CPU einrichten (https://pytorch.org/audio/stable/build.windows.html#install-Pytorch):
-
(venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch=2.3.1 torchvision torchaudio cpuonly -c pytorch
für CPU/Mac -
(venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch[version=2.3.1,build=py3.10_cuda11.8*] pytorch-cuda=11.8 torchvision torchaudio cuda-toolkit ninja -c pytorch -c nvidia/label/cuda-11.8.0 -c nvidia
für cuda
- Klon The Repo:
git clone https://github.com/rsxdalv/tts-generation-webui.git
- Installieren Sie die Anforderungen:
- Installieren Sie alle Anforderungen*.txt (diese Liste ist möglicherweise nicht auf dem neuesten Stand. Überprüfen Sie https://github.com/rsxdalv/tts-generation-webui/blob/main/dockerfile#l39-l40):
-
(venv) pip install -r requirements.txt
-
(venv) pip install -r requirements_audiocraft.txt
-
(venv) pip install -r requirements_bark_hubert_quantizer.txt
-
(venv) pip install -r requirements_rvc.txt
-
(venv) pip install hydra-core==1.3.2
-
(venv) pip install -r requirements_styletts2.txt
-
(venv) pip install -r requirements_vall_e.txt
-
(venv) pip install -r requirements_maha_tts.txt
-
(venv) pip install -r requirements_stable_audio.txt
-
(venv) pip install soundfile==0.12.1
-
(venv) pip install nvidia-ml-py
- Erstellen Sie die React App:
(venv) cd react-ui && npm install && npm run build
- (Optional) Richten Sie die Datenbank ein:
(venv) node installer_scripts/js/applyDatabaseConfig.js
- Führen Sie den Server aus:
(venv) python server.py
Reagieren ui
- Installieren Sie NodeJs (falls dies nicht bereits mit Conda installiert ist)
- Installieren Sie React -Abhängigkeiten:
npm install
- Build React:
npm run build
- Run React:
npm start
- Führen Sie auch den Python -Server aus:
python server.py
oder mit start_tts_webui
Skript
Docker -Setup
TTS-Generation-Webui kann auch in einem Docker-Container geleitet werden. Ziehen Sie, um zu beginnen, das Bild aus der Github -Containerregistrierung:
docker pull ghcr.io/rsxdalv/tts-generation-webui:main
Sobald das Bild gezogen wurde, kann es mit Docker Compose gestartet werden:
Der Container dauert einige Zeit, um die erste Ausgabe zu generieren, während Modelle im Hintergrund heruntergeladen werden. Der Status dieses Downloads kann überprüft werden, indem die Containerprotokolle überprüfen:
docker logs tts-generation-webui
Das Bild selbst aufbauen
Wenn Sie Ihren eigenen Docker -Container erstellen möchten, können Sie die enthaltene Dockerfile verwenden:
docker build -t tts-generation-webui .
Bitte beachten Sie, dass der Docker-Compose bearbeitet werden muss, um das gerade erstellte Bild zu verwenden.
Zusätzliche Stimmen für Rinde, schnelle Beispiele
Bark Readme
Readme_Bark.md
Informationen zum Verwalten von Modellen, Caches und Systemraum für KI -Projekte
#186 (Antwort im Thread)
Open Source -Bibliotheken
In diesem Projekt werden die folgenden Open -Source -Bibliotheken verwendet:
Suno -AI/Bark - MIT -Lizenz
- Beschreibung: Inferenzcode für Rindenmodell.
- Repository: Suno/Rinde
Schildkröte-TTS -Apache-2.0-Lizenz
- Beschreibung: Eine flexible Synthesebibliothek für Text zu Sprache für verschiedene Plattformen.
- Repository: Neonbjb/Tortoise-TTS
FFMPEG - LGPL -Lizenz
- Beschreibung: Eine vollständige und plattformübergreifende Lösung für die Video- und Audioverarbeitung.
- Repository: ffmpeg
- Verwenden: Codierung von Vorbis -OGG -Dateien
ffmpeg -python - Apache 2.0 Lizenz
- Beschreibung: Python -Bindungen für die FFMPEG -Bibliothek zur Behandlung von Multimedia -Dateien.
- Repository: Kkroening/ffmpeg-python
Audiocraft - MIT -Lizenz
- Beschreibung: Eine Bibliothek für Audiogenerierung und MusicGen.
- Repository: FacebookResearch/Audiocraft
Vocos - MIT -Lizenz
- Beschreibung: Ein verbesserter Decoder für Encodec -Proben
- Repository: MACCRT-Plattform/Vocos
RVC - MIT -Lizenz
- Beschreibung: Ein benutzerfreundliches Sprachkonvertierungsrahmen basierend auf Vits.
- Repository: RVC-Project/Retrieval-basierte Voice-Conversion-Webui
Ethische und verantwortungsbewusste Verwendung
Diese Technologie ist für Ermöglichung und Kreativität vorgesehen, nicht für Schäden.
Durch die Beschäftigung mit diesem KI -Modell erkennen Sie diese Richtlinien an und stimmen zu, diese Richtlinien einzuhalten und das KI -Modell auf verantwortungsbewusste, ethische und rechtliche Weise einzustellen.
- Nicht-malere Absicht: Verwenden Sie dieses KI-Modell nicht für böswillige, schädliche oder rechtswidrige Aktivitäten. Es sollte nur für rechtmäßige und ethische Zwecke verwendet werden, die positives Engagement, Wissensaustausch und konstruktive Gespräche fördern.
- Keine Imitation: Verwenden Sie dieses KI -Modell nicht, um sich als eine andere Person, einschließlich Einzelpersonen, Organisationen oder Unternehmen, zu vermitteln oder falsch darzustellen. Es sollte nicht verwendet werden, um andere zu täuschen, zu betrügen oder zu manipulieren.
- Keine betrügerischen Aktivitäten: Dieses KI -Modell darf nicht für betrügerische Zwecke wie finanzielle Betrügereien, Phishing -Versuche oder irgendeine Form von betrügerischen Praktiken verwendet werden, die darauf abzielen, sensible Informationen, Geldgewinn oder nicht autorisierten Zugang zu Systemen zu erwerben.
- Rechtliche Einhaltung: Stellen Sie sicher, dass Ihre Verwendung dieses KI -Modells den geltenden Gesetzen, Vorschriften und Richtlinien in Bezug auf KI -Nutzung, Datenschutz, Datenschutz, geistiges Eigentum und andere relevante rechtliche Verpflichtungen in Ihrer Gerichtsbarkeit entspricht.
- Bestätigung: Indem Sie sich mit diesem KI -Modell befassen, erkennen Sie diese Richtlinien an und stimmen zu, diese Richtlinien zu halten, wobei das KI -Modell verantwortungsbewusst, ethisch und rechtlich verwendet wird.
Lizenz
Codebasis und Abhängigkeiten
Die Codebasis ist unter MIT lizenziert. Es ist jedoch wichtig zu beachten, dass Sie bei der Installation der Abhängigkeiten auch ihren jeweiligen Lizenzen unterliegen. Obwohl die meisten dieser Lizenzen zulässig sind, kann es einige geben, die dies nicht tun. Daher ist es wichtig zu verstehen, dass die zulässige Lizenz nur für die Codebasis selbst und nicht für das gesamte Projekt gilt.
Davon abgesehen ist es das Ziel, die MIT -Kompatibilität während des gesamten Projekts aufrechtzuerhalten. Wenn Sie auf eine Abhängigkeit stoßen, die nicht mit der MIT -Lizenz kompatibel ist, können Sie sich gerne ein Problem eröffnen und uns darauf aufmerksam machen.
Bekannte nicht permissive Abhängigkeiten:
Bibliothek | Lizenz | Notizen |
---|
CCODEC | CC BY-NC 4.0 | Neuere Versionen sind MIT, müssen aber manuell installiert werden |
Diffq | CC BY-NC 4.0 | In Zukunft optional, nicht erforderlich, kann deinstalliert werden, sollte mit Demucs aktualisiert werden |
lameenc | GPL -Lizenz | Zukünftige Versionen werden es zu LGPL machen, müssen jedoch manuell installiert werden |
Unidecode | GPL -Lizenz | Nicht geschäftskritisch, kann durch eine andere Bibliothek ersetzt werden, Ausgabe: Neonbjb/Tortoise-TTS#494 |
Modellgewichte
Modellgewichte haben unterschiedliche Lizenzen. Bitte achten Sie auf die Lizenz des von Ihnen verwendeten Modells.
Vor allem:
- Rinde: MIT
- Schildkröte: Unbekannt (Apache-2.0 nach Repo, aber keine Lizenzdatei in Huggingface)
- MusicGen: CC BY-NC 4.0
- Audiogen: CC BY-NC 4.0
Kompatibilität / Fehler
Audiocraft ist derzeit nur mit Linux und Windows kompatibel. Der MacOS -Support ist immer noch nicht eingetroffen, obwohl es möglicherweise möglich ist, manuell zu installieren.
Fackel wird neu installiert
Aufgrund der PIP -Einschränkungen des Python Package Managers (PIP) kann Torch mehrmals neu installiert werden. Dies ist eine weitreichende Ausgabe von PIP und Torch.
Rote Nachrichten in der Konsole
Diese Nachrichten:
---- requires ----, but you have ---- which is incompatible.
Sind völlig normal. Es ist sowohl eine Einschränkung von PIP als auch, weil diese Web -Benutzeroberfläche viele verschiedene KI -Projekte zusammen kombiniert. Da die Projekte nicht immer miteinander kompatibel sind, beschweren sie sich über die anderen Projekte, die installiert werden. Dies ist normal und erwartet. Und am Ende werden die Projekte trotz der Warnungen/Fehler zusammenarbeiten. Es ist nicht klar, ob diese Situation jemals entschlossen sein wird, aber das ist die Hoffnung.