tts generation webui Download - tts generation webui Quellcode Download

tts generation webui

Anderer Quellcode

1.0.0

Herunterladen

TTS -Generation Webui / Mundharmonica

Download Installer || Installation || Docker Setup || Feedback- / Fehlerberichte

Banner

Videos

Modelle

Text-to-Speech	Audio-/Musikgeneration	Audio -Konvertierung/Tools
Bellen	Musikgen	RVC
Schildkröte	Magnet	Demucs
Maha tts	Stabiler Audio	Vokos
MMS	(Erweiterung) Riffusion	Flüstern
Vall-e x	(Erweiterung) Audiocraft Mac
Styletts2	(Erweiterung) Audiocraft Plus
Seamlessm4t
(Erweiterung) XTTSV2
(Erweiterung) Mars5
(Erweiterung) F5-TTS
(Erweiterung) Parler TTS

Beispiele

Bark.narration.mp4	Bark.japanese.mp4	MusicGen.mp4

Screenshots

Changelog

23. November:

Fügen Sie Linux Fairseq Wheel für eine bessere PIP -Kompatibilität hinzu.

22. November:

Wechseln Sie zu Rädern und fügen Sie eine Eingabeaufforderung für die Einstellung hinzu.

15. November:

Upgrade auf Gradio 5.5.0, add add Ensble Enhance (#420)

14. November:

Fügen Sie experimentelles Windows Deepspeed -Rad hinzu.
Fügen Sie mehr Sprachen zum Bellen des Sprachklones hinzu.

11. November:

Wechseln Sie zu einer festen Fairseq -Version für Windows -Reduktionsinstallationskonflikte und beschleunigen Updates.

Oktober 2024

28. Oktober:

Installationstests, Modell-Downloader und PIP-CPU-Option für Torch hinzugefügt.

24. Oktober:

Durch einen Fehler auf 5.1.0 auf 5.1.0 herabgestuft.
Test -Workflows und minderwertige Fehler hinzugefügt.

22. Oktober:

Behobene Dockerfile -Probleme für einen reibungsloseren Einsatz.

21. Oktober:

Neu gestaltete Readme: Verbesserte Flüstererweiterung, fügte ChangeLogs für August, September und Oktober hinzu, aktualisierte Screenshots und neu organisierte Inhalte.

19. Oktober:

Behobene Erweiterungsprotokolle und neue Erweiterungen hinzugefügt.

18. Oktober:

Systemverbesserungen: formatiertes Projekt, behobene xformers+cuda Installieren, Protokollsysteme hinzugefügt, die Erweiterung der Erweiterung und F5 TTS hinzugefügt.

16. Oktober:

Zuerst verwendet jetzt pip anstelle von uv .
Gestoßete Majorversion und behoben Google Colab.
Pip Fallback zum stabilen Audio hinzugefügt.
Demucs behoben, den Postgres -Port geändert.
Behobene huggingface_hub Installation und Rindenmodellloader.
Hauptverbesserungen: Auf Gradio 5 umgeschaltet, fauler Laden für Registerkarten, Docker -Korrekturen, optimierte UI -Geschwindigkeit, hinzugefügte .Env.User -Funktion, verbesserte Protokolle und verbesserte React UI -Erweiterungen.

3. Oktober:

Die Registerkarte GPU-Info behoben und nvidia-ml-py hinzugefügt.
Erstellte Problemumgehung für Audiocraft Install -Fehler.
Die automatische MSVC -Installation behoben und den Server auf 127.0.0.1 festlegen.
Behoben .git_version Pfad und entferntes iconv , um die Anforderungen node-gyp zu beseitigen.
Verbessertes Installationsprogramm Fehlerbehebung, addieren Sie upgrade Hash -Protokollierung.
Upgrade node.js auf 22.9.0, postgresql -Unterstützung hinzugefügt, gruppierte Registerkarten in React UI.

September 2024

Klicken Sie hier, um zu erweitern

23. September:

Verwenden Sie CUDA automatisch für MMS.

22. September:

FFMPEG -Metadatenverlängerung hinzugefügt, um UI zu reagieren.
Maha TTS nur Mono-Kündigungen hinzugefügt.
Hotfix, um den Knoten 20.17.0 Installationsfehler zu vermeiden.

21. September:

Stabile Audio -Demo hinzugefügt, um die Benutzeroberfläche zu reagieren.
Verbessertes UI -Layout.

19. September:

Verbesserter React UI Visueller Look mit neuen Schiebereglern und besserem Layout.
Optimierte RVC -UI, Colab behoben und ein Suchbefehlsfeld hinzugefügt.
Upgrade node.js auf 20.17.0.

2. September:

Dockerfile festgelegt und aktualisiert docker-compose.yml.
Fehler beim Laden von NPZ behoben.

August 2024

Klicken Sie hier, um zu erweitern

31. August:

Upgrade -Modellinferenz -Framework auf Dekoratoren.
Verschiebte Python -Dateien von src in den Ordner tts_webui .
Schreiben Sie die MusicGen -Registerkarte und behoben verwandte Fehler.

20. August:

Auf Gradio 4 aktualisiert und ein Thema hinzugefügt.
Modellladennachrichten für Schildkröte hinzugefügt.
Reactuis RVC festgelegt.
Überblicklichte Hyperparameter.
Die Verwaltung der Erweiterung der Erweiterung der Erweiterungen, XTTS-Simple, hinzugefügt.

5. August:

Rinde in React UI reparieren, maximale Erzeugungsdauer hinzufügen.
Änderung von Audiocraft Plus -Erweiterungsmodellen Verzeichnis in ./data/models/audiocraft_plus/
Verbesserung des Modells für Musikgen und Audiogen. Fügen Sie MusicGen und Audiogen die Schaltfläche Modelle hinzu.
Fügen Sie die Erweiterung der Huggingface -Cache -Manager hinzu.

4. August:

Fügen Sie XTS-RVC-UI-Erweiterung hinzu, XTTS Fine-Tuning Demo-Erweiterung.

3. August:

Fügen Sie Riffusion Extension, Audiocraft MAC -Erweiterung, Rinde Legacy -Erweiterung hinzu.

2. August:

Fügen Sie dem alten Installateur eine Abschaltwarnung hinzu.
Vermitteln Sie die Fehlerbehandlung und vereinfachen Sie die Registerkartenbelastung.

1. August:

Fügen Sie "Versuchs -Update" für externe Erweiterungen hinzu.
Überspringen Sie die Wiederinstallationspakete, wenn die Version von PIP_Packages nicht geändert wird.
Synchronisieren Sie den Gradio -Port mit React UI.
Ändern Sie den Standard -Gradio -Port von 7860 auf 7770.

Juli 2024

Klicken Sie hier, um zu erweitern

31. Juli:

Fix React UIs MusicGen, nachdem sich der Gradio ändert.
Fügen Sie die Schaltfläche Entladen hinzu, um die Erweiterung zu flüstern.

29. Juli:

Ändern Sie FFMPEG auf 4.4.2 von Conda-forge, um weitere Plattformen, einschließlich Mac M1, zu unterstützen.
Schildkröte CVVP deaktivieren.

26. Juli:

Flüsterweiterung
Experimentelle AMD ROCM Installation Support. (Nur Linux)

25. Juli:

Fügen Sie diagnostische Skripte für macOS und Linux hinzu.
Fügen Sie bessere Fehlerdetails für Registerkarten hinzu.
Fix .SH -Skript -Ausführungsberechtigungen für die Installateure unter Linux und MacOS.

21. Juli:

Fügen Sie die Erweiterung der Galerieverlauf hinzu (adaptiert aus der alten Galerieansicht)
Konvertieren Sie den einfachen Remixer in Erweiterung
Reparieren update.py, um die neueren Fackelversionen zu verwenden (update.py dient nur für alte Zwecke und wird wahrscheinlich brechen)
Fügen Sie diagnostisches Skript hinzu und erzwingen Sie die Neuinstallation von Skripten für Windows.

20. Juli:

Fix Discord Join Link
Vereinfachen Sie die Rinde weiter und beseitigen Sie eine übermäßige Komplexität im Code.
Fügen Sie UI/Modulare Erweiterungen hinzu, diese Erweiterungen ermöglichen die Installation neuer Modelle und Funktionen in der Benutzeroberfläche. In Zukunft werden Modelle als Erweiterungen beginnen, bevor sie leicht hinzugefügt werden.
Deaktivieren Sie die Galerieansicht in Ausgaben
Bekanntes Problem: Firefox kann in Gradio Ausgänge nicht angezeigt, und es fällt aus, sie aus dem Backend abzurufen. Innerhalb von React UI funktioniert dies einwandfrei.

15. Juli:

Kommentar - Da die React -UI schon lange aus ist, wird Gradio UI die Rolle spielen, nur die Funktionen dem Benutzer zu dienen, ohne die äußerst komplizierte Benutzeroberfläche, die sie nicht bewältigen kann. Es gibt einen echten Mangel an Entwicklungszeit, um neue Modelle und Funktionen hinzuzufügen, aber der alte Integrationsstil war nicht rentabel. Da die neuen APIs und die Rolle des Modells definiert sind, besteht es möglich, Erweiterungen für ganze Modelle zu haben, um viel mehr Flexibilität und leichtere Installationen zu ermöglichen.
Starten Sie die Skalierung von Gradio UI -Komplexität - Entfernung an RVC/Demucs/Voice -Tasten. (Entfernen Sie die interne Komponente Joutai).
Fügen Sie Version.json für bessere Updates in der Zukunft hinzu.
Reduzieren Sie die maximale Anzahl von Ausgängen auf 1.
Fügen Sie die Schalttaste des Entladens von Entladen hinzu, entladen Sie das Modell, bevor Sie die nächsten/ändern/ändern. Die Parameter wechseln, sodass Tortoise während der Einstellungsänderung nicht mehr 2x -Modellspeicher verwendet wird.

14. Juli:

Gruppieren Sie Gradio Registerkarten in Gruppen - Text zu Sprache, Audiokonvertierung, Musikgenerierung, Ausgaben und Einstellungen
Reinigen Sie den Header und fügen Sie Link für Feedback hinzu
Fügen Sie Samenkontrolle zu stabilem Audio hinzu
Beheben Sie den stabilen Audio -Dateiname -Fehler mit Newlines
Deaktivieren Sie "Simple Remixer" Gradio -Registerkarte "
Fix Bark Spoice Clone & RVC noch einmal
Fügen Sie "installierte Pakete" zu Debugging hinzu

13. Juli:

Hauptverbesserung auf Torch 2.3.1 und Xformers 0.0.27
- Alle Benutzer, einschließlich Mac und CPU, haben jetzt die gleiche Pytorch -Version.
Upgrade CUDA auf 11,8 aktualisieren
Zwingen Sie Python zu 3.10.11
Ändern Sie das Installationsprogramm, um das Upgrade von Python und Torch ohne Neuinstallation zu ermöglichen (derzeit Hauptversion 2)
Beheben Sie Magnet -Standardparameter für eine bessere Qualität
Verbessern Sie die Überprüfungen des Installationskripts, um Fehler zu vermeiden
Aktualisieren Sie Styletts2

11. Juli:

Verbesserung der Dateinamen der Audiogenerierung
Fügen Sie Kraft hinzu, die die Fackelreparatur neu installieren
Machen Sie das Installationsprogramm vor dem Ausführen automatisch

9. Juli:

Reparieren Sie neue Installations- und Installationsanweisungen dank https://github.com/xeraster!

8. Juli:

Ändern Sie den Installationsprozess, um Paketkonflikte zu reduzieren und die Flexibilität der Fackelversion zu aktivieren.

6. Juli:

Erstveröffentlichung von New Mamba -basiertem Installateur.
Speichern Sie stabile Audioergebnisse in Outputs-RVC/StableAudio-Ordner.
Fügen Sie einer stabilen Audiomodellauswahl einen Haftungsausschluss hinzu und zeigen Sie bessere Fehlermeldungen, wenn Dateien fehlen.

1. Juli:

Optimieren Sie den stabilen Audiospeicherverbrauch nach der Generation.
Open React UI nur automatisch, wenn Gradio auch automatisch eröffnet wird.
Entfernen Sie unnötige Conda Git neu.
Aktualisierung des neuesten stabilen Audios mit MPS -Unterstützung (erfordert neuere Fackelversionen).

Juni 2024

Klicken Sie hier, um zu erweitern

22. Juni: * Fügen Sie Gradio stabiler Audio hinzu.

21. Juni:

Fügen Sie Vall-ex-Demo hinzu, um die Benutzeroberfläche zu reagieren.
Open React UI automatisch im Browser, beheben Sie den Link erneut.
Fügen Sie auf der Länge auf, um zu reagieren/Schildkröte.
Fix UVR5 -Demo -Ordner.
Stellen Sie die FairSeq -Version für Linux und Mac auf 0,12.2 fest. (#323)
Verbesserung der Erzeugungsgeschichte für alle React UI -Registerkarten.

17. Mai:

Schildkrötenvoreinstellungen in React UI reparieren.

9. Mai:

Fügen Sie MMS hinzu, um die Benutzeroberfläche zu reagieren.
Verbesserung der React UI und Codebasis.

4. Mai:

Gruppenveränderung für Monat

April 2024

Klicken Sie hier, um zu erweitern

28. April: * Fügen Sie Maha Tts hinzu, um die UI zu reagieren. * GPU -Informationen hinzufügen, um die Benutzeroberfläche zu reagieren.

6. April:

Fügen Sie die Registerkarte "Vall-Ex-Generation Demo hinzu.
Fügen Sie MMS Demo -Registerkarte hinzu.
Fügen Sie die Registerkarte "Maha tts Demo hinzu.
Fügen Sie Styletts2 -Demo -Registerkarte hinzu.

5. April:

Beheben Sie den RVC -Installationsfehler.
Fügen Sie die grundlegende Registerkarte UVR5 -Demo hinzu.

4. April:

Upgrade RVC auf RVMPE und FCPE einbeziehen. Entfernen Sie die Direktdateieingabe für Modelle und Indizes aufgrund einer Dateivervielfältigung. Verbesserung der React UI -Schnittstelle für RVC.

März 2024

Klicken Sie hier, um zu erweitern

28. März:

GPU -Info -Registerkarte hinzufügen

27. März:

Fügen Sie Informationen über das Sprachklonen zum Registerkarten -Sprachklon hinzu

26. März:

Fügen Sie Maha TTS Demo Notebook hinzu

22. März:

Vall-e x Demo über Notebook (#292)
Fügen Sie React UI zum Docker -Bild hinzu
Fügen Sie Installation Haftungsausschluss hinzu

16. März:

Aktualisieren Sie Vocos auf 0,1,0

14. März:

Styletts2 Demo Notebook

13. März:

Experimentelle Pipeline hinzufügen (Rinden / Schildkröten / Musicgen / Audiogen / Magnet -> RVC / Demucs / Vocos) (#287)
Beheben Sie den RVC -Fehler mit dem Modell neu, das für jede Generation neu lädt. Für kurze Eingänge, die zu einer sichtbaren Beschleunigung führen.

11. März:

Fügen Sie das Spiel als Audio hinzu und speichern Sie Stimmen auf Rinde (#286)
Ändern Sie UX, um zu zeigen, dass Dateien aus Favoriten gelöscht werden
Beheben Sie Bilder für Rindenstimmen, die nicht angezeigt werden
Reparieren Sie die Audio -Wiedergabe in den Favoriten

10. März:

Fügen Sie die Charge hinzu, um den UI -Magneten zu reagieren (#283)
Fügen Sie Audio zu Audioübersetzung zu SeamlessM4T hinzu (#284)

5. März:

Fügen Sie die Batching hinzu, um UI MusicGen (#281) zu reagieren, dank https://github.com/aamir3d, um dies zu beantragen und Feedback bereitzustellen

3. März:

Fügen Sie MMS -Demo als Notizbuch hinzu
Fügen Sie MultibandDiffusion High VRAM Haftungsausschluss hinzu

Februar 2024

Klicken Sie hier, um zu erweitern

21. Februar:

Fix Docker-Container-Builds und Fehler mit Docker-Audioktraft

8. Februar:

Beheben Sie MultibandDiffusion für MusicGen -Stereo -Modelle, danke https://github.com/mykeehu
Fix Node.js Installationsschritte auf Google Colab, Code von https://github.com/miaohf

6. Februar:

Fügen Sie die Erweiterung der FLAC -Dateigenerierung von https://github.com/joachip hinzu

Januar 2024

Klicken Sie hier, um zu erweitern

21. Januar:

Fügen Sie mit jedem Update CPU/M1-Torch Auto-Repair-Skript hinzu. Um zu deaktivieren, bearbeiten Sie check_cuda.py und ändern Sie force_no_repair = true

16. Januar:

Aktualisieren Sie MusicGen und fügen Sie Unterstützung für Stereo- und große Melodienmodelle hinzu
Magnet hinzufügen

15. Januar:

Upgradio auf 3.48.0 verbessert
- Wenn sie kritisch sind, melden Sie sie oder downgrade gradio.
- Gradio: Nutzlose Warnungen unterdrücken
Supress Triton Warnungen
Gradio-Bark: Beheben Sie "Verwenden Sie die letzte Generation als Verlauf" Verhalten, leere Auswahl keine Fehler mehr
Verbesserung der Verlängerungsladeranzeige
Aktualisieren Sie Transformatoren auf 4.36.1 von 4.31.0 auf 4,36.1
Fügen Sie SeamlessM4T -Demo hinzu

14. Januar:

React UI: Fehlende Verzeichnisfehler beheben

13. Januar:

React UI: Fehlende fehlende NPM -Build -Schritt von der automatischen Installation beheben

12. Januar:

React UI: Beheben von Namen für Audioaktionen
Gradio: Mehrere API -Warnungen beheben
Integration - React UI jetzt wird neben Gradio mit einem Link zum Öffnen gestartet

11. Januar:

Reagieren Sie UI: Machen Sie das Build ohne Fehler funktioniert

9. Januar:

Reagieren ui
- Fix 404 Handler für Wavesurfer
- Gruppenrinde mit Registerkarten zusammen

8. Januar:

Release React UI

2023

Klicken Sie hier, um zu erweitern

Oktober 2023

26. Oktober:

Verbesserung der Modellauswahl UX für MusicGen

24. Oktober:

Fügen Sie die erste React UI für MusicGen und Demucs hinzu (#202)
Saatgut von Rinde Long Generation Saatgut reparieren (dank https://github.com/520pig520)

September 2023

21. September:

Rinde: Fügen Sie weiter als semantische Historie -Taste hinzu
Wechseln Sie zu Github Docker Bildspeicher, neues Docker -Bild:
- docker pull ghcr.io/rsxdalv/tts-generation-webui:main
Beheben der Option Server_port in Config #168 dank https://github.com/dartvauderer

9. September:

Reparieren Sie die XDG-Open-Befehlszeile dank https://github.com/jfronny
Dank https://github.com/slack-t und https://github.com/bkutasi
Fügen Sie die Schaltfläche "Entladen" -Modell hinzu, um zu bellen, wie von https://github.com/aamir3d angefordert
Fügen Sie Rindendetails zu Readme_Bark.md hinzu, wie von https://github.com/maki9009 angefordert
Fügen Sie "optional" hinzu, um die Eingabeaufforderung dank https://github.com/maki9009 einzubinden.

5. September:

Fügen Sie die Sprachmischung zum Bellen hinzu
Fügen Sie V1 -Verbrennungen in der Eingabeaufforderung zu Rinde hinzu (Verbrennungen in Eingabeaufforderungen dienen zum Anweisungen des semantischen Modells, ohne Zeit für die Erzeugung des Audios zu verbringen. Das V1 funktioniert, indem die semantischen Token generiert und dann als Eingabeaufforderung für das semantische Modell verwendet werden.)
Fügen Sie den Erzeugungslängenbegrenzer zum Bellen hinzu

August 2023

27. August:

Fix Musicgen, das die Melodie #153 ignoriert

26. August:

Senden Sie Senden Sie an RVC, Demucs, Vocos -Tasten an Rinde und Vocos

24. August:

Fügen Sie den RVC -Ausgängen Datum hinzu, um #147 zu beheben
Fehlen von SafeTensoren fehlen Rad
Fügen Sie Sende an die Demucs -Schaltfläche zum MusicGen hinzu

21. August:

Fügen Sie Tolchvision Installation in Colab für MusicGen Issue Fix hinzu
Entfernen Sie die Protokollierung der RVC_TAB -Datei

20. August:

Beheben Sie MBD, indem Sie Hydra-Core am Ende eines Update neu installieren

18. August:

CI: Fügen Sie eine GitHub -Aktion hinzu, um das Docker -Image automatisch zu veröffentlichen.

16. August:

Fügen Sie "Name" zu Schildkröten -Generationsparametern hinzu

15. August:

Pin -Torch auf 2.0.0 in allen Anforderungen.txt -Dateien
Beule Audiocraft- und Rindenversionen
Entfernen Sie Schildkrötentransformers Fix von Colab
Aktualisieren Sie die Schildkröte auf 2.8.0

13. August:

Potenziell große Fix für neue Benutzerinstallationen, die Probleme hatten, mit der GPU nicht unterstützt wurde

11. August:

Schildkröte Hotfix dank Manmay-Nakhashi
Fügen Sie eine Schildkrötenoption hinzu, um den Tokenizer zu wechseln

8. August:

Aktualisieren Sie Audiocraft, Verbesserung der MultibandDiffusion -Leistung
Fix Tortoise Parameter 'Cond_free' Mismatch mit 'ultra_fast' voreingestellter

7. August:

Fügen Sie Colab Tiefspeed Fix hinzu

6. August:

Fix Audiogen + MBD -Fehler, fügen Sie Tortoise Fix für Colab hinzu

4. August:

Fügen Sie MusicGen #109 eine MultibandDiffusion -Option hinzu
MusicGen/Audiogen speichern Token auf der Generation als .npz -Dateien.

3. August:

Fügen Sie Audiogen #105 hinzu

2. August:

MODEL -PORILIKATIONEN IST NICHT AMGENSTARTEN

Juli 2023

26. Juli:

Sprachgalerie
Sprachschneider
Fix Voice -Umbenennen Sie den Fehler um, benennen Sie das Bild auch um, fügen Sie eine Hash -Textbox hinzu
Einfacheres Herunterladen von Stimmen (#98)

24. Juli:

Ändern Sie das Bark -Dateiformat, um den Hash Hash: ... Contest_Generation ... -> ... von_3ea0D063 ...

23. Juli:

Docker -Bild dank https://github.com/jonfairbanks
RVC UI -Namensverbesserungen

21. Juli:

Beheben Hubert arbeitet nicht nur mit CPU zusammen (#87)
Fügen Sie Google Colab Demo (#88) hinzu
Neue Einstellungen Registerkarte und Modellorte (für erweiterte Benutzer) (#90)

19. Juli:

Fügen Sie Schildkrötenoptimierungen hinzu, vielen Dank https://github.com/manmay-nakhashi #79 (implements #18)

16. Juli:

Sprachfoto Demo
Fügen Sie ein Verzeichnis hinzu, um RVC -Modelle/-indizes in und einen Dropdown -Bereich zu speichern
Problemumgehung RVC, der IS_HALF für CPU #74 nicht respektiert
Schildkrötenmodell und Sprachauswahl Verbesserungen #73

10. Juli:

Demucs Demo #67

9. Juli:

RVC -Demo + Tortoise, V6 -Installationsprogramm mit Update -Skript und automatische Versuche, zusätzliche Module #66 zu installieren

5. Juli:

Verbesserter V5 -Installationsprogramm - schneller und zuverlässiger #63

2. Juli:

Upgrade -Rindeneinstellungen #59 aktualisieren

1. Juli:

Studio-Tab #58

Juni 2023

29. Juni:

Schildkröte neue Params #54

27. Juni:

Beheben Sie eifrige Ladefehler, Refactor #50

20. Juni

Schildkröte: Angemessene Dateien der Langformform Generation #46

19. Juni

Tortoise-Upgrade #45

18. Juni:

Aktualisieren Sie zu dem neuesten Audiookraft und fügen Sie längere Generationen hinzu

14. Juni:

Fügen Sie Vocos WAV Tab #42 hinzu

5. Juni:

Beheben Sie die Schaltfläche "Save to Favorites" auf der Seite "Rinde Generation", "Console" (v4.1.1) aufräumen.
Fügen Sie "Sammlungs" -Rist für die Verwaltung verschiedener Datensätze und eine einfachere Curation hinzu.

4. Juni:

Aktualisieren Sie V4.1 - Verbesserte Hash -Funktion, Codeverbesserungen

3. Juni:

Update auf V4 - Neue Ausgabestruktur, verbesserte Verlaufsansicht, Codebasis -Reorganisation, verbesserte Metadaten, Ausgangserweiterungen Unterstützung

Mai 2023

21. Mai:

Update auf V3 - Voice Clone Demo

17. Mai:

Update auf V2 - Generieren Sie Ergebnisse, wie sie angezeigt werden, Vorschau Lange Eingabeaufforderung Generationen Stück für Stück, Aktivieren Sie bis zu 9 Ausgänge, UI -Optimierungen

16. Mai:

Fügen Sie die Registerkarte "Gradio Settings" hinzu, beheben Sie Gradio -Fehler in der Konsole, verbessern Sie die Protokollierung.
Aktualisieren Sie den Verlauf und die Favoriten mit "Verwendung als Stimme" und "Sprachspeicher" -Tasten
Fügen Sie die Registerkarte Stimmen hinzu
Rinde Registerkarte: Entfernen Sie "oder verwenden Sie die letzte Generation als Geschichte"
Verbesserung der Codeorganisation

13. Mai:

Aktivieren Sie die deterministische Erzeugung und verbessern Sie erzeugte Protokolle. Credits an Suno-AI/Bark#175.

10. Mai:

Aktivieren Sie die Möglichkeit, die Geschichte von älteren Generationen wiederzuverwenden. Speichern Sie Generationen als NPZ -Dateien. Fügen Sie eine bequeme Methode hinzu, um die letzten drei Generationen für die nächsten Eingabeaufforderungen wiederzuverwenden. Fügen Sie eine Schaltfläche zum Speichern und Sammeln von Verlaufsaufforderungen unter /Stimmen hinzu. #10

4. Mai:

Langformgenerierung (Credits an https://github.com/suno-ai/Bark/blob/main/notebooks/long_form_generation.ipynb und suno-ai/bark#161)
Anpassen an feste Env var -Fehler

3. Mai:

Verbesserte Schildkröten -UI: Voice-, Preset- und CVVP -Einstellungen sowie Fähigkeit, 3 Ergebnisse zu generieren (#6)

2. Mai:

Unterstützung für die Recylcing des Verlaufs hinzugefügt, um längere Aufforderungen manuell fortzusetzen
Unterstützung für V2 -Eingaben hinzugefügt

Vor:

Unterstützung für Schildkröten -TTs hinzugefügt

Upgrade (für alte Installationen)

Bei Problemen können Sie sich gerne an die Entwickler wenden .

Klicken Sie hier, um zu erweitern

Upgrade von V6 auf New Installer

Empfohlen: Frische Installation

Laden Sie die neue Version herunter und führen Sie die start_tts_webui.bat (Windows) aus oder starten_tts_webui.sh (macOS, Linux) aus.
Sobald es fertig ist, schließen Sie den Server.
Empfohlen: Kopieren Sie die alten Generationen in das neue Verzeichnis, z.
Mit Vorsicht: Sie können das gesamte neue TTS-Generation-Webui-Verzeichnis über das alte kopieren, aber es gibt möglicherweise einige alte Dateien, die verloren gehen.

In-Place-Upgrade können einige Dateien gelöscht, Optimierungen

Aktualisieren Sie die vorhandene Installation über das Skript von Update_ Plattform
Nach dem Update führen Sie die neuen start_tts_webui.bat (Windows) oder start_tts_webui.sh (macOS, Linux) innerhalb des TTS-Generation-Webui-Verzeichnisses aus
Sobald der Server startet, prüfen Sie, ob er funktioniert.
Mit Vorsicht: Wenn der neue Server im Verzeichnis One-Click-Installers funktioniert, löschen Sie die alten Installer_files.

Gibt es eine optimale Möglichkeit, dies zu tun?

Nicht genau, die Abhängigkeiten kontaktieren, insbesondere zwischen Conda und Python (und Abhängigkeiten befinden sich bereits in einem kritischen Zustand, und es ist eine Möglichkeit, sie nach Conda zu bewegen). Daher ist es zwar möglich, den alten Installateur durch das neue zu ersetzen und das Update auszuführen, die Probleme sind daher unvorhersehbar und unfehlbar . Das Erstellen eines Updates für das Installationsprogramm erfordert viele Tests, sodass es nicht leichtfertig durchgeführt wird.

Installation

Laden Sie die neueste Version herunter und extrahieren Sie sie.
Führen Sie start_tts_webui.bat oder start_tts_webui.sh aus, um den Server zu starten. Sie werden aufgefordert, den von Ihnen verwendeten GPU/Chip auszuwählen. Sobald alles installiert wurde, startet der Gradio -Server unter http: // localhost: 7770 und die react ui unter http: // localhost: 3000.
Das Ausgabeprotokoll ist in der Datei installer_scripts/output.log verfügbar.

Manuelle Installation (nicht empfohlen)

Diese Anweisungen spiegeln möglicherweise nicht alle neuesten Korrekturen und Anpassungen wider, können jedoch als Referenz für das Debuggen oder das Verständnis des Installationsprogramms nützlich sein. Hoffentlich können sie eine Grundlage für die Unterstützung neuer Plattformen wie AMD/Intel sein.
Installieren Sie Conda (https://docs.conda.io/projects/conda/en/latest/user-guide/install/index.html)
- (Windows) Installieren Sie Visual Studio Compiler/Visual Studio Build-Tools https://visualstudio.microsoft.com/visual-cpp-build-tools/
Richten Sie eine Umgebung ein: conda create -n venv
Installieren Sie Git, Node.js conda install -y -c conda-forge git python=3.10.11 conda-forge::nodejs=22.9.0 conda pip==23.3.2 conda-forge::uv=0.4.17 conda-forge::vswhere
a) Entweder fahren Sie mit dem Installationsproskript fort
- Aktivieren Sie die Umgebung: conda activate venv und
- (venv) node installer_scriptsinit_app.js
- Führen Sie dann den Server mit (venv) python server.py aus
b) oder die Anforderungen manuell installieren
- Pytorch mit CUDA oder CPU einrichten (https://pytorch.org/audio/stable/build.windows.html#install-Pytorch):
  - (venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch=2.3.1 torchvision torchaudio cpuonly -c pytorch für CPU/Mac
  - (venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch[version=2.3.1,build=py3.10_cuda11.8*] pytorch-cuda=11.8 torchvision torchaudio cuda-toolkit ninja -c pytorch -c nvidia/label/cuda-11.8.0 -c nvidia für cuda
- Klon The Repo: git clone https://github.com/rsxdalv/tts-generation-webui.git
- Installieren Sie die Anforderungen:
  - Installieren Sie alle Anforderungen*.txt (diese Liste ist möglicherweise nicht auf dem neuesten Stand. Überprüfen Sie https://github.com/rsxdalv/tts-generation-webui/blob/main/dockerfile#l39-l40):
    - (venv) pip install -r requirements.txt
    - (venv) pip install -r requirements_audiocraft.txt
    - (venv) pip install -r requirements_bark_hubert_quantizer.txt
    - (venv) pip install -r requirements_rvc.txt
    - (venv) pip install hydra-core==1.3.2
    - (venv) pip install -r requirements_styletts2.txt
    - (venv) pip install -r requirements_vall_e.txt
    - (venv) pip install -r requirements_maha_tts.txt
    - (venv) pip install -r requirements_stable_audio.txt
    - (venv) pip install soundfile==0.12.1
    - (venv) pip install nvidia-ml-py
  - Erstellen Sie die React App: (venv) cd react-ui && npm install && npm run build
- (Optional) Richten Sie die Datenbank ein: (venv) node installer_scripts/js/applyDatabaseConfig.js
- Führen Sie den Server aus: (venv) python server.py

Reagieren ui

Installieren Sie NodeJs (falls dies nicht bereits mit Conda installiert ist)
Installieren Sie React -Abhängigkeiten: npm install
Build React: npm run build
Run React: npm start
Führen Sie auch den Python -Server aus: python server.py oder mit start_tts_webui Skript

Docker -Setup

TTS-Generation-Webui kann auch in einem Docker-Container geleitet werden. Ziehen Sie, um zu beginnen, das Bild aus der Github -Containerregistrierung:

 docker pull ghcr.io/rsxdalv/tts-generation-webui:main

Sobald das Bild gezogen wurde, kann es mit Docker Compose gestartet werden:

 docker compose up -d

Der Container dauert einige Zeit, um die erste Ausgabe zu generieren, während Modelle im Hintergrund heruntergeladen werden. Der Status dieses Downloads kann überprüft werden, indem die Containerprotokolle überprüfen:

 docker logs tts-generation-webui

Das Bild selbst aufbauen

Wenn Sie Ihren eigenen Docker -Container erstellen möchten, können Sie die enthaltene Dockerfile verwenden:

 docker build -t tts-generation-webui .

Bitte beachten Sie, dass der Docker-Compose bearbeitet werden muss, um das gerade erstellte Bild zu verwenden.

Zusätzliche Stimmen für Rinde, schnelle Beispiele

Promptecho

Rindenlautsprecherverzeichnis

Bark Readme

Readme_Bark.md

Informationen zum Verwalten von Modellen, Caches und Systemraum für KI -Projekte

#186 (Antwort im Thread)

Open Source -Bibliotheken

In diesem Projekt werden die folgenden Open -Source -Bibliotheken verwendet:

Suno -AI/Bark - MIT -Lizenz
- Beschreibung: Inferenzcode für Rindenmodell.
- Repository: Suno/Rinde
Schildkröte-TTS -Apache-2.0-Lizenz
- Beschreibung: Eine flexible Synthesebibliothek für Text zu Sprache für verschiedene Plattformen.
- Repository: Neonbjb/Tortoise-TTS
FFMPEG - LGPL -Lizenz
- Beschreibung: Eine vollständige und plattformübergreifende Lösung für die Video- und Audioverarbeitung.
- Repository: ffmpeg
- Verwenden: Codierung von Vorbis -OGG -Dateien
ffmpeg -python - Apache 2.0 Lizenz
- Beschreibung: Python -Bindungen für die FFMPEG -Bibliothek zur Behandlung von Multimedia -Dateien.
- Repository: Kkroening/ffmpeg-python
Audiocraft - MIT -Lizenz
- Beschreibung: Eine Bibliothek für Audiogenerierung und MusicGen.
- Repository: FacebookResearch/Audiocraft
Vocos - MIT -Lizenz
- Beschreibung: Ein verbesserter Decoder für Encodec -Proben
- Repository: MACCRT-Plattform/Vocos
RVC - MIT -Lizenz
- Beschreibung: Ein benutzerfreundliches Sprachkonvertierungsrahmen basierend auf Vits.
- Repository: RVC-Project/Retrieval-basierte Voice-Conversion-Webui

Ethische und verantwortungsbewusste Verwendung

Diese Technologie ist für Ermöglichung und Kreativität vorgesehen, nicht für Schäden.

Durch die Beschäftigung mit diesem KI -Modell erkennen Sie diese Richtlinien an und stimmen zu, diese Richtlinien einzuhalten und das KI -Modell auf verantwortungsbewusste, ethische und rechtliche Weise einzustellen.

Nicht-malere Absicht: Verwenden Sie dieses KI-Modell nicht für böswillige, schädliche oder rechtswidrige Aktivitäten. Es sollte nur für rechtmäßige und ethische Zwecke verwendet werden, die positives Engagement, Wissensaustausch und konstruktive Gespräche fördern.
Keine Imitation: Verwenden Sie dieses KI -Modell nicht, um sich als eine andere Person, einschließlich Einzelpersonen, Organisationen oder Unternehmen, zu vermitteln oder falsch darzustellen. Es sollte nicht verwendet werden, um andere zu täuschen, zu betrügen oder zu manipulieren.
Keine betrügerischen Aktivitäten: Dieses KI -Modell darf nicht für betrügerische Zwecke wie finanzielle Betrügereien, Phishing -Versuche oder irgendeine Form von betrügerischen Praktiken verwendet werden, die darauf abzielen, sensible Informationen, Geldgewinn oder nicht autorisierten Zugang zu Systemen zu erwerben.
Rechtliche Einhaltung: Stellen Sie sicher, dass Ihre Verwendung dieses KI -Modells den geltenden Gesetzen, Vorschriften und Richtlinien in Bezug auf KI -Nutzung, Datenschutz, Datenschutz, geistiges Eigentum und andere relevante rechtliche Verpflichtungen in Ihrer Gerichtsbarkeit entspricht.
Bestätigung: Indem Sie sich mit diesem KI -Modell befassen, erkennen Sie diese Richtlinien an und stimmen zu, diese Richtlinien zu halten, wobei das KI -Modell verantwortungsbewusst, ethisch und rechtlich verwendet wird.

Lizenz

Codebasis und Abhängigkeiten

Die Codebasis ist unter MIT lizenziert. Es ist jedoch wichtig zu beachten, dass Sie bei der Installation der Abhängigkeiten auch ihren jeweiligen Lizenzen unterliegen. Obwohl die meisten dieser Lizenzen zulässig sind, kann es einige geben, die dies nicht tun. Daher ist es wichtig zu verstehen, dass die zulässige Lizenz nur für die Codebasis selbst und nicht für das gesamte Projekt gilt.

Davon abgesehen ist es das Ziel, die MIT -Kompatibilität während des gesamten Projekts aufrechtzuerhalten. Wenn Sie auf eine Abhängigkeit stoßen, die nicht mit der MIT -Lizenz kompatibel ist, können Sie sich gerne ein Problem eröffnen und uns darauf aufmerksam machen.

Bekannte nicht permissive Abhängigkeiten:

Bibliothek	Lizenz	Notizen
CCODEC	CC BY-NC 4.0	Neuere Versionen sind MIT, müssen aber manuell installiert werden
Diffq	CC BY-NC 4.0	In Zukunft optional, nicht erforderlich, kann deinstalliert werden, sollte mit Demucs aktualisiert werden
lameenc	GPL -Lizenz	Zukünftige Versionen werden es zu LGPL machen, müssen jedoch manuell installiert werden
Unidecode	GPL -Lizenz	Nicht geschäftskritisch, kann durch eine andere Bibliothek ersetzt werden, Ausgabe: Neonbjb/Tortoise-TTS#494

Modellgewichte

Modellgewichte haben unterschiedliche Lizenzen. Bitte achten Sie auf die Lizenz des von Ihnen verwendeten Modells.

Vor allem:

Rinde: MIT
Schildkröte: Unbekannt (Apache-2.0 nach Repo, aber keine Lizenzdatei in Huggingface)
MusicGen: CC BY-NC 4.0
Audiogen: CC BY-NC 4.0

Kompatibilität / Fehler

Audiocraft ist derzeit nur mit Linux und Windows kompatibel. Der MacOS -Support ist immer noch nicht eingetroffen, obwohl es möglicherweise möglich ist, manuell zu installieren.

Fackel wird neu installiert

Aufgrund der PIP -Einschränkungen des Python Package Managers (PIP) kann Torch mehrmals neu installiert werden. Dies ist eine weitreichende Ausgabe von PIP und Torch.

Rote Nachrichten in der Konsole

Diese Nachrichten:

 ---- requires ----, but you have ---- which is incompatible.

Sind völlig normal. Es ist sowohl eine Einschränkung von PIP als auch, weil diese Web -Benutzeroberfläche viele verschiedene KI -Projekte zusammen kombiniert. Da die Projekte nicht immer miteinander kompatibel sind, beschweren sie sich über die anderen Projekte, die installiert werden. Dies ist normal und erwartet. Und am Ende werden die Projekte trotz der Warnungen/Fehler zusammenarbeiten. Es ist nicht klar, ob diese Situation jemals entschlossen sein wird, aber das ist die Hoffnung.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-02-27
Größe 4.13MB
Kommt von Github

Ähnliche Anwendungen

JableTVDownload WebUI

2024-11-12
flux webui

2024-11-09
open webui

2024-11-03
F5 TTS ComfyUI

2024-11-02
stable diffusion webui

2024-11-01
Generation Zero fordert CODEX heraus

2022-11-02