tts generation webui Téléchargement - tts generation webui Code source Téléchargement

tts generation webui

Autre code source

1.0.0

Télécharger

TTS Generation Webui / Harmonica

Télécharger l'installateur || Installation || Configuration du docker || Rapports de commentaires / bogues

bannière

Vidéos

Modèles

Texte vocal	Génération audio / musique	Conversion audio / outils
Aboyer	Musicgen	RVC
Tortue	Aimant	Décurer
Maha tts	Audio stable	Vocos
MMS	(Extension) Riffusion	Chuchoter
Vall-e x	(Extension) Audiocraft Mac
Styletts2	(Extension) Audiocraft Plus
SEAUXM4T
(Extension) xttsv2
(Extension) Mars5
(Extension) F5-TTS
(Extension) Parler TTS

Exemples

Bark.narration.mp4	Bark.japanais.mp4	Musicgen.mp4

Captures d'écran

Changelog

23 novembre:

Ajoutez Linux Fairseq Wheel pour une meilleure compatibilité PIP.

22 novembre:

Passez aux roues, ajoutez une invite d'installation à un coup.

15 novembre:

Passer à Gradio 5.5.0, ajouter Ressemble Enhance (# 420)

14 novembre:

Ajouter la roue expérimentale des fenêtres profondes.
Ajoutez plus de langues au clone vocale d'écorce.

11 novembre:

Passez à une version fixe Fairseq pour Windows réduisant les conflits d'installation et accélérant les mises à jour.

Octobre 2024

28 octobre:

Ajout des tests d'installation, du téléchargeur de modèles et de l'option PIP CPU uniquement pour la torche.

24 octobre:

Downradad Gradio à 5.1.0 en raison d'un bogue.
Ajout de workflows de test et corriger les bogues mineurs.

22 octobre:

Correction des problèmes Dockerfile pour le déploiement plus fluide.

21 octobre:

Readme redessinée: extension de chuchotement améliorée, ajout de changelogs pour août, septembre et octobre, captures d'écran mises à jour et contenu réorganisé.

19 octobre:

Correction des journaux d'extension et ajouté de nouvelles extensions.

18 octobre:

Améliorations du système: projet formaté, Correction xformers+cuda Installation, Système de journal ajouté, bouton d'extension de désinstallation et extension F5 TTS.

16 octobre:

L'installation d'abord utilise désormais pip au lieu des uv .
Bumpé la version majeure et corrigé Google Colab.
Ajout de PIP Fallback à un audio stable.
DemUMS fixe, le port postgres modifié.
Correction de huggingface_hub Installer et Bark Model chargeur.
Mises à niveau majeures: Passée à Gradio 5, chargement paresseux pour les onglets, correctifs docker, vitesse d'interface utilisateur optimisée, ajout de fonctions .env.User, journaux améliorés et extensions de réaction améliorées.

3 octobre:

Correction de l'onglet Info GPU et ajouté nvidia-ml-py .
Création de solution de contournement pour le bug d'installation d'Audiocraft.
Correction de l'installation automatique MSVC et définissez le serveur sur 127.0.0.1 .
Correction du chemin .git_version et supprimé iconv pour éliminer l'exigence node-gyp .
Amélioration de la gestion des erreurs du programme d'installation, ajout de la journalisation du hachage de mise à niveau.
Node.js mis à niveau vers 22.9.0, ajout de support postgresql, onglets groupés dans l'interface utilisateur React.

Septembre 2024

Cliquez pour agrandir

23 sept.:

Utilisez automatiquement CUDA pour MMS.

22 septembre:

Ajout de l'extension des métadonnées FFMPEG à réagir l'interface utilisateur.
Ajout d'un avis mono uniquement pour MAHA TTS.
Hotfix pour éviter le nœud 20.17.0 Panne d'installation.

21 septembre:

Ajout d'une démo audio stable pour réagir l'interface utilisateur.
Amélioration de l'interface utilisateur améliorée.

19 sept.:

Aspect visuel de l'interface utilisateur react amélioré avec de nouveaux curseurs et une meilleure mise en page.
UI RVC optimisé, a fixé le colab et a ajouté une zone de commande de recherche.
Mettre à niveau Node.js en 20.17.0.

2 septembre:

Dockerfile fixe et docker-compose.yml mis à jour.
Correction d'un bug dans le chargement NPZ.

Août 2024

Cliquez pour agrandir

31 août:

Mettre à niveau le cadre d'inférence du modèle vers les décorateurs.
Déplacé des fichiers Python du dossier src vers tts_webui .
Réécrivez l'onglet Musicgen et corrigez les bogues associés.

20 août:

Mise à niveau vers Gradio 4 et a ajouté le thème.
Ajout de messages de chargement du modèle pour la tortue.
Correction de RVC de Reacttui.
Hyperparamètres refactorisés.
Ajout de la liste des extensions, extension XTTS-Simple.

5 août:

Correction de l'écorce dans l'interface utilisateur React, ajoutez la durée de la génération maximale.
Modifier le répertoire des modèles d'extension Audiocraft Plus en ./data/models/audiocraft_plus/
Améliorer le déchargement du modèle pour Musicgen et Audiogen. Ajoutez le bouton des modèles de déchargement à MusicGen et audiogen.
Ajoutez une extension HuggingFace Cache Manager.

4 août:

Ajoutez une extension XTTS-RVC-UI, Extension de démonstration finale XTts.

3 août:

Ajouter une extension de riffusion, une extension Mac Audiocraft, une extension de Bark Legacy.

2 août:

Ajoutez un avertissement de dépréciation à l'ancien installateur.
Unifier la gestion des erreurs et simplifier le chargement des onglets.

1 août:

Ajoutez le bouton "Tenter Mise à jour" pour les extensions externes.
Évitez la réinstallation des packages lorsque la version pip_packages n'est pas modifiée.
Synchronisez le port Gradio avec UI React.
Modifiez le port de gradio par défaut à 7770 à partir de 7860.

Juillet 2024

Cliquez pour agrandir

31 juillet:

Fix MusicGen de REACT UI après les changements de Gradio.
Ajouter le bouton de déchargement à l'extension chuchotée.

29 juillet:

Changer FFMPEG en 4.4.2 de Conda-Forge afin de prendre en charge plus de plateformes, y compris Mac M1.
Désactiver la tortue CVVP.

26 juillet:

Extension de chuchotement
Prise en charge expérimentale de l'installation AMD ROCM. (Linux seulement)

25 juillet:

Ajoutez des scripts diagnostiques pour macOS et Linux.
Ajoutez de meilleurs détails d'erreur pour les onglets.
Correction des autorisations d'exécution de script .sh pour les installateurs sur Linux et MacOS.

21 juillet:

Ajouter une extension de l'histoire de la galerie (adaptée de l'ancienne vue de la galerie)
Convertir le remixer simple en extension
Fix Update.py pour utiliser les versions de torche plus récentes (Update.py est uniquement à des fins héritées et se cassera probablement)
Ajouter le script de diagnostic et forcer la réinstallation des scripts pour Windows.

20 juillet:

Correction du lien de jointure Discord
Simplifiez l'écorce davantage, en supprimant une complexité excessive dans le code.
Ajoutez des extensions d'interface utilisateur / modulaires, ces extensions permettent d'installer de nouveaux modèles et fonctionnalités à l'interface utilisateur. À l'avenir, les modèles commenceront comme des extensions avant d'être ajoutés de façon permanente.
Désactiver la vue de la galerie dans les sorties
Problème connu: Firefox échoue à afficher les sorties dans Gradio, il échoue à les récupérer du backend. Dans REACT UI, cela fonctionne bien.

15 juillet:

Commentaire - Comme l'interface utilisateur React est sortie depuis longtemps maintenant, Gradio UI va avoir le rôle de service uniquement des fonctions à l'utilisateur, sans l'interface utilisateur extrêmement compliquée qu'il ne peut pas gérer. Il y a une réelle pénurie de temps de développement pour ajouter de nouveaux modèles et fonctionnalités, mais l'ancien style d'intégration n'était pas viable. Comme les nouvelles API et «le rôle du modèle» sont définis, il sera possible d'avoir des extensions pour des modèles entiers, permettant beaucoup plus de flexibilité et d'installations plus légères.
Démarrer la rédaction de la complexité de Gradio UI - Suppression des boutons RVC / DeMUCS / VOCH . (Supprimer le composant interne Joutai).
Ajouter la version.json pour de meilleures mises à jour à l'avenir.
Réduisez le nombre maximum d'écorce de graddio de sorties à 1.
Ajoutez le bouton de modèle de déchargement à Tortoise, déchargez également le modèle avant de charger les paramètres suivants / changeants, donc la tortue n'utilise plus la mémoire du modèle 2x pendant la modification des paramètres.

14 juillet:

Regroupez les onglets Gradio en groupes - Texte à la parole, conversion audio, génération de musique, sorties et paramètres
Nettoyez l'en-tête, ajoutez un lien pour les commentaires
Ajouter un contrôle des graines à l'audio stable
Correction d'un bogue de nom de fichier audio stable avec Newlines
Désactiver l'onglet Gradio "Remixer simple"
Fix à nouveau du clone vocal d'écorce et RVC
Ajouter l'onglet "Packages installés" pour le débogage

13 juillet:

Mise à niveau majeure vers la torche 2.3.1 et XFORMERS 0.0.27
- Tous les utilisateurs, y compris Mac et CPU, auront désormais la même version Pytorch.
Mettre à niveau CUDA à 11.8
Forcer Python à être 3.10.11
Modifiez l'installateur pour permettre la mise à niveau de Python et de la torche sans réinstaller (actuellement majeure version 2)
Correction des paramètres par défaut de l'aimant pour une meilleure qualité
Améliorer les vérifications du script d'installation pour éviter les bogues
Mettre à jour Styletts2

11 juillet:

Améliorer les noms de fichiers de génération d'audio stables
Ajouter une réinstallation de force à la réparation de la torche
Faites la mise à jour automatique du programme d'installation avant d'exécuter

9 juillet:

Corrigez les nouvelles instructions d'installation et d'installation grâce à https://github.com/xeraster!

8 juillet:

Modifiez le processus d'installation pour réduire les affrontements de packages et activer la flexibilité de la version torche.

6 juillet:

Version initiale du nouveau programme d'installation basé sur Mamba.
Enregistrez les résultats audio stables dans le dossier de sorties-RVC / stableAudio.
Ajoutez un avertissement à la sélection de modèle audio stable et affichez de meilleurs messages d'erreur en cas de manque de fichiers.

1er juillet:

Optimiser l'utilisation de la mémoire audio stable après la génération.
Open React UI automatiquement uniquement si Gradio s'ouvre également automatiquement.
Retirez la réinstallation de conda git inutile.
Mise à jour de la dernière audio stable qui a une prise en charge MPS (nécessite des versions de torche plus récentes).

Juin 2024

Cliquez pour agrandir

22 juin: * Ajouter un son stable à Gradio.

21 juin:

Ajoutez une démo VALL-EX pour réagir l'interface utilisateur.
Ouvrez l'interface utilisateur de réact automatiquement dans le navigateur, réparez à nouveau le lien.
Ajouter la division par longueur pour réagir / tortue.
Corrigez les dossiers de démonstration UVR5.
Définissez la version Fairseq sur 0.12.2 pour Linux et Mac. (# 323)
Améliorez l'historique de la génération pour tous les onglets d'interface utilisateur React.

17 mai:

Correction des préréglages de tortue dans l'interface utilisateur React.

9 mai:

Ajouter des MMS pour réagir l'interface utilisateur.
Améliorer l'interface utilisateur et la base de code React.

4 mai:

Groupe Changelog par mois

Avril 2024

Cliquez pour agrandir

28 avril: * Ajoutez des maha tts pour réagir l'interface utilisateur. * Ajoutez des informations GPU pour réagir l'interface utilisateur.

6 avril:

Ajoutez l'onglet de démonstration de génération Vall-Ex.
Ajouter l'onglet Demo MMS.
Ajoutez l'onglet de démonstration MAHA TTS.
Ajouter l'onglet Demo Styletts2.

5 avril:

Correction du bug d'installation RVC.
Ajoutez une onglet de démonstration UVR5 de base.

4 avril:

Mettez à niveau RVC pour inclure RVMPE et FCPE. Supprimez l'entrée de fichier direct pour les modèles et les index en raison de la duplication de fichier. Améliorez l'interface UI React pour RVC.

Mars 2024

Cliquez pour agrandir

28 mars:

Ajouter un onglet d'information GPU

27 mars:

Ajouter des informations sur le clonage vocal au clone vocale d'onglet

26 mars:

Ajouter le cahier de démonstration MAHA TTS

22 mars:

Demo Vall-E x via le cahier (# 292)
Ajouter une interface utilisateur React à l'image docker
Ajouter une avertissement d'installation

16 mars:

Améliorer les vocos à 0.1.0

14 mars:

Styletts2 Demo Notebook

13 mars:

Ajouter le pipeline expérimental (Bark / Tortoise / Musicgen / Audiogen / Aagnet -> RVC / DemUcs / Vocos) (# 287)
Correction du bug RVC avec le rechargement du modèle à chaque génération. Pour les entrées courtes, ce qui se traduit par une accélération visible.

11 mars:

Ajouter le jeu en tant qu'audio et enregistrer sur Voices to Bark (# 286)
Modifier UX pour montrer que les fichiers sont supprimés des favoris
Correction d'images pour les voix d'écorce qui ne montrent pas
Correction de la lecture audio dans les favoris

10 mars:

Ajouter un lot à React UI Magnet (# 283)
Ajouter l'audio à la traduction audio à Seamlessm4t (# 284)

5 mars:

Ajouter un lot à React UI Musicgen (# 281), grâce à https://github.com/aamir3d pour avoir demandé cela et fournir des commentaires

3 mars:

Ajouter la démo MMS en tant que cahier
Ajouter une clause de non-responsabilité VRAM High VRAM Multibanddiffusion

Février 2024

Cliquez pour agrandir

21 février:

Corrigez les versions de conteneurs Docker et Bug avec Docker-Audiocraft

8 février:

Corrigez le multibanddiffusion pour les modèles stéréo de Musicgen, merci https://github.com/mykeehu
Correction des étapes d'installation de node.js sur Google Colab, code par https://github.com/miaohf

6 février:

Ajoutez une extension de génération de fichiers FLAC par https://github.com/joachip

Janvier 2024

Cliquez pour agrandir

21 janvier:

Ajoutez le script CPU / M1 Torch Auto-Repair à chaque mise à jour. Pour désactiver, modifiez Check_cuda.py et modifiez Force_No_Repair = True

16 janvier:

Mettre à niveau MusicGen, en ajoutant un support pour les modèles stéréo et de grands mélodie
Ajouter

15 janvier:

Gradio amélioré à 3,48.0
- Plusieurs bogues visuels sont apparus, s'ils sont critiques, veuillez les signaler ou rétrograder Gradio.
- Gradio: supprimer les avertissements inutiles
Avertissements en supprime Triton
Gradio-Bark: Correction de "Utiliser le comportement de la dernière génération comme historique", la sélection vide ne plus les erreurs
Améliorer l'affichage des chargeurs d'extensions
Améliorer les transformateurs à 4.36.1 à partir de 4.31.0
Ajouter une démonstration de couture

14 janvier:

Réagir l'interface utilisateur: corriger les erreurs du répertoire manquant

13 janvier:

Réagir l'interface utilisateur: corriger l'étape de construction du NPM manquant à partir de l'installation automatique

12 janvier:

React ui: corrige les noms pour les actions audio
Gradio: Correction de plusieurs avertissements d'API
Intégration - REACT UI est maintenant lancé aux côtés de Gradio, avec un lien pour l'ouvrir

11 janvier:

Réagir l'interface utilisateur: faire fonctionner la construction sans aucune erreur

9 janvier:

Réagir l'interface utilisateur
- Fix 404 Handler pour wavesurfer
- Onglets d'écorce de groupe ensemble

8 janvier:

Release react ui

2023

Cliquez pour agrandir

Octobre 2023

26 octobre:

Améliorer la sélection du modèle UX pour Musicgen

24 octobre:

Ajouter une interface utilisateur initiale pour Musicgen et DemUcs (# 202)
Fix Bark Long Generation Seed Drifting (Merci à https://github.com/520pig520)

Septembre 2023

21 septembre:

Bark: Ajouter Continuer comme bouton d'histoire sémantique
Passez à GitHub Docker Image Storage, nouvelle image Docker:
- docker pull ghcr.io/rsxdalv/tts-generation-webui:main
Correction de l'option Server_port dans Config # 168, grâce à https://github.com/dartvauder

9 sept.:

Correction de la ligne de commande XDG-Open, grâce à https://github.com/jfronny
Correction des générations d'écorce multi-lignes, grâce à https://github.com/slack-t et https://github.com/bkutasi
Ajouter le bouton de déchargement du modèle à l'écorce comme demandé par https://github.com/aamir3d
Ajoutez des détails d'écorce à readme_bark.md comme demandé par https://github.com/maki9009
Ajouter "facultatif" à brûler dans l'invite, grâce à https://github.com/maki9009

5 sept.:

Ajouter le mélange de voix à l'écorce
Ajouter V1 Burn in Prompt to Bark (la brûlure dans les invites consiste à diriger le modèle sémantique sans passer du temps à générer l'audio. Le V1 fonctionne en générant les jetons sémantiques puis en l'utilisant comme invite pour le modèle sémantique.)
Ajouter un limiteur de longueur de génération à l'écorce

Août 2023

27 août:

Fix Musicgen Ignorer la mélodie # 153

26 août:

Ajouter Envoyer à RVC, DemUcs, Buttons vocos à Bark et Vocos

24 août:

Ajouter une date aux sorties RVC pour corriger # 147
Correction de la roue manquante de safet
Ajouter le bouton Envoyer à DemUcs à MusicGen

21 août:

Ajouter l'installation de TorchVision à Colab pour Musicgen Issue Fix
Supprimer la journalisation du fichier RVC_TAB

20 août:

Correction de MBD en réinstallant l'hydra-core à la fin d'une mise à jour

18 août:

CI: Ajoutez une action GitHub pour publier automatiquement l'image Docker.

16 août:

Ajouter "nom" aux paramètres de génération de tortue

15 août:

Épingler la torche à 2.0.0 dans tous les fichiers exigences.txt
Bump audiocraft et versions d'écorce
Supprimer la correction des transformateurs de tortue de Colab
Mettre à jour la tortue à 2.8.0

13 août:

Potentiellement grosse correction pour les nouvelles installations d'utilisateurs qui avaient des problèmes avec GPU qui ne sont pas pris en charge

11 août:

Tortoise Hotfix grâce à Manmay-Nakhashi
Ajouter une option de tortue pour modifier le tokenizer

8 août:

Mettre à jour Audiocraft, améliorer les performances multibanddiffusion
Correction du paramètre Tortoise 'Calmatch' Camematch avec le préréglage «Ultra_fast»

7 août:

Ajouter une correction de tortoise Deeppeed à Colab

6 août:

Correction de l'erreur Audiogen + MBD, ajoutez une correction de tortue pour Colab

4 août:

Ajouter une option multibanddiffusion à Musicgen # 109
Les jetons de sauvegarde de MusicGen / Audiogen sur la génération en tant que fichiers .npz.

3 août:

Ajouter audiogen # 105

2 août:

Correction des emplacements du modèle qui ne se montrent pas après le redémarrage

Juillet 2023

26 juillet:

Galerie de voix
Croping vocal
Correction de la refroidissement de la voix, de renommée image également, ajoutez une zone de texte de hachage
Téléchargement plus facile de voix (# 98)

24 juillet:

Modifiez le format de fichier d'écorce pour inclure l'historique Hash: ... Suite_GENERATION ... -> ... de_3ea0d063 ...

23 juillet:

Image docker grâce à https://github.com/jonfairbanks
RVC Ui Naming Améliorations

21 juillet:

Fix Hubert ne travaillant pas uniquement avec CPU (# 87)
Ajouter la démo Google Colab (# 88)
NOUVEAUX paramètres d'onglet Paramètres et des emplacements du modèle (pour les utilisateurs avancés) (# 90)

19 juillet:

Ajoutez des optimisations de tortue, merci https://github.com/manmay-nakhashi # 79 (outils # 18)

16 juillet:

Demo de photo vocale
Ajouter un répertoire pour stocker les modèles / index RVC et une liste déroulante
RVC de solution de contournement ne respecte pas IS_HALF pour le processeur # 74
Modèle de tortue et améliorations de sélection de voix # 73

10 juillet:

DemUcs Demo # 67

9 juillet:

RVC Demo + Tortoise, V6 Installateur avec script de mise à jour et tentatives automatiques pour installer des modules supplémentaires # 66

5 juillet:

Installateur V5 amélioré - plus rapide et plus fiable # 63

2 juillet:

Mettre à niveau les paramètres d'écorce n ° 59

1er juillet:

Studio-Tab # 58

Juin 2023

29 juin:

Tortue nouveaux params # 54

27 juin:

Correction des erreurs de chargement avides, refactor # 50

20 juin

Tortoise: fichiers de génération longue longue forme # 46

19 juin

Tortoise-mise à niveau n ° 45

18 juin:

Mise à jour de la nouvelle audiocraft, ajoutez des générations plus longues

14 juin:

Ajouter vocos wav onglet # 42

5 juin:

Corrigez le bouton "Enregistrer vers les favoris" sur la page de génération d'écorce, nettoyez la console (v4.1.1)
Ajoutez un onglet "Collections" pour gérer plusieurs ensembles de données différents et une augmentation plus facile.

4 juin:

Mise à jour de la v4.1 - amélioration de la fonction de hachage, améliorations de code

3 juin:

Mise à jour de V4 - Nouvelle structure de sortie, vue de l'historique améliorée, réorganisation de la base de code, métadonnées améliorées, support d'extensions de sortie

Mai 2023

21 mai:

Mise à jour de la V3 - Demo de clone vocal

17 mai:

Mise à jour de V2 - générer des résultats au fur et à mesure qu'ils apparaissent, prévisualisez les générations longues longues pièce par pièce, activez jusqu'à 9 sorties, ajustements d'interface utilisateur

16 mai:

Ajouter l'onglet Paramètres Gradio, fixer les erreurs de gradio dans la console, améliorer la journalisation.
Mettre à jour l'historique et les favoris avec les boutons "Utiliser As Voice" et "Enregistrer la voix"
Ajouter l'onglet des voix
Onglet d'écorce: supprimez "ou utilisez la dernière génération comme historique"
Améliorer l'organisation du code

13 mai:

Activer la génération déterministe et améliorer les journaux générés. Crédits à Suno-ai / Bark # 175.

10 mai:

Activer la possibilité de réutiliser les invites d'histoire des générations plus anciennes. Enregistrer les générations sous forme de fichiers NPZ. Ajoutez une méthode pratique pour réutiliser l'une des 3 dernières générations pour les invites suivantes. Ajoutez un bouton pour enregistrer et collecter des invites d'historique sous / voix. # 10

4 mai:

Génération longue de formulaire (crédits à https://github.com/suno-ai/bark/blob/main/notebooks/long_form_generation.ipynb et suno-ai / bark # 161)
S'adapter à un bug env var fixe

3 mai:

Interface utilisateur de tortue améliorée: paramètres de voix, préréglage et CVVP ainsi que la capacité de générer 3 résultats (# 6)

2 mai:

Ajout d'un support pour les recycles d'historique pour continuer les invites plus longues manuellement
Ajout de la prise en charge des invites V2

Avant:

Ajout du support pour TTSE TTS

Mise à niveau (pour les anciennes installations)

En cas de problèmes, n'hésitez pas à contacter les développeurs .

Cliquez pour agrandir

Mise à niveau de V6 à un nouveau programme d'installation

Recommandé: Installation fraîche

Téléchargez la nouvelle version et exécutez le start_tts_webui.bat (Windows) ou start_tts_webui.sh (macOS, Linux)
Une fois terminé, fermez le serveur.
Recommandé: Copiez les anciennes générations dans le nouveau répertoire, telles que les favoris / sorties / sorties-rvc / modèles / collections / config.json
Avec prudence: vous pouvez copier l'ensemble du nouveau répertoire TTS-Generation-Webui sur l'ancien, mais il pourrait y avoir des fichiers anciens qui sont perdus.

Mise à niveau en place, peut supprimer certains fichiers, ajustement

Mettez à jour l'installation existante à l'aide du script de plate-forme Update_
Après la mise à jour, exécutez le nouveau start_tts_webui.bat (Windows) ou start_tts_webui.sh (macOS, Linux) à l'intérieur du répertoire TTS-Generation-webui
Une fois le serveur démontr, vérifiez si cela fonctionne.
Avec prudence: si le nouveau serveur fonctionne, dans le répertoire en un clic, supprimez l'ancien installer_files.

Y a-t-il un moyen plus optimal de le faire?

Pas exactement, les dépendances s'affrontent, en particulier entre Conda et Python (et les dépendances sont déjà dans un état critique, les déplacer vers Conda est des moyens éteints). Par conséquent, bien qu'il puisse être possible de simplement remplacer l'ancien installateur par le nouveau et d'exécuter la mise à jour, les problèmes sont imprévisibles et imprévoyables . Faire une mise à jour de l'installateur nécessite beaucoup de tests, donc il n'est pas fait à la légère.

Installation

Téléchargez la dernière version et extraire.
Exécutez start_tts_webui.bat ou start_tts_webui.sh pour démarrer le serveur. Il vous demandera de sélectionner le GPU / Chip que vous utilisez. Une fois que tout a été installé, il démarrera le serveur Gradio sur http: // localhost: 7770 et l'interface utilisateur React sur http: // localhost: 3000.
Le journal de sortie sera disponible dans le fichier Installer_Scripts / Output.log.

Installation manuelle (non recommandée)

Ces instructions peuvent ne pas refléter tous les derniers correctifs et ajustements, mais pourraient être utiles comme référence pour déboguer ou comprendre ce que fait l'installateur. J'espère qu'ils pourront être une base pour soutenir de nouvelles plateformes, telles que AMD / Intel.
Installez conda (https://docs.conda.io/projects/conda/en/latest/user-guide/install/index.html)
- (Windows) Installez Visual Studio Compiler / Visual Studio Build Tools https://visualstudio.microsoft.com/visual-cpp-build-tools/
Configurer un environnement: conda create -n venv
Installer git, node.js conda install -y -c conda-forge git python=3.10.11 conda-forge::nodejs=22.9.0 conda pip==23.3.2 conda-forge::uv=0.4.17 conda-forge::vswhere
a) Soit continuer avec le script d'installation
- activer l'environnement: conda activate venv et
- (venv) node installer_scriptsinit_app.js
- Ensuite, exécutez le serveur avec (venv) python server.py
b) ou installer les exigences manuellement
- Configurez Pytorch avec Cuda ou CPU (https://pytorch.org/audio/stable/build.windows.html#install-pytorch):
  - (venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch=2.3.1 torchvision torchaudio cpuonly -c pytorch pour CPU / Mac
  - (venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch[version=2.3.1,build=py3.10_cuda11.8*] pytorch-cuda=11.8 torchvision torchaudio cuda-toolkit ninja -c pytorch -c nvidia/label/cuda-11.8.0 -c nvidia pour cuda
- Clone The Repo: git clone https://github.com/rsxdalv/tts-generation-webui.git
- Installez les exigences:
  - Installez toutes les exigences * .txt (cette liste peut ne pas être à jour, cochez https://github.com/rsxdalv/tts-generation-webui/blob/main/dockerfile#l39-l40):
    - (venv) pip install -r requirements.txt
    - (venv) pip install -r requirements_audiocraft.txt
    - (venv) pip install -r requirements_bark_hubert_quantizer.txt
    - (venv) pip install -r requirements_rvc.txt
    - (venv) pip install hydra-core==1.3.2
    - (venv) pip install -r requirements_styletts2.txt
    - (venv) pip install -r requirements_vall_e.txt
    - (venv) pip install -r requirements_maha_tts.txt
    - (venv) pip install -r requirements_stable_audio.txt
    - (venv) pip install soundfile==0.12.1
    - (venv) pip install nvidia-ml-py
  - Création de l'application React: (venv) cd react-ui && npm install && npm run build
- (Facultatif) Configuration de la base de données: (venv) node installer_scripts/js/applyDatabaseConfig.js
- Exécutez le serveur: (venv) python server.py

Réagir l'interface utilisateur

Installez NodeJS (s'il n'est pas déjà installé avec conda)
Installer les dépendances React: npm install
Build react: npm run build
Run React: npm start
Exécutez également le serveur Python: python server.py ou avec start_tts_webui script

Configuration de Docker

La génération tts-webui peut également être exécutée à l'intérieur d'un conteneur Docker. Pour commencer, tirez l'image du registre des conteneurs GitHub:

 docker pull ghcr.io/rsxdalv/tts-generation-webui:main

Une fois l'image retirée, elle peut être démarrée avec Docker Compose:

 docker compose up -d

Le conteneur prendra un certain temps pour générer la première sortie tandis que les modèles sont téléchargés en arrière-plan. Le statut de ce téléchargement peut être vérifié en vérifiant les journaux des conteneurs:

 docker logs tts-generation-webui

Construire l'image vous-même

Si vous souhaitez créer votre propre conteneur Docker, vous pouvez utiliser le Dockerfile inclus:

 docker build -t tts-generation-webui .

Veuillez noter que le compose Docker doit être modifié pour utiliser l'image que vous venez de construire.

Des voix supplémentaires pour l'écorce, des échantillons rapides

Invitecho

Répertoire de haut-parleur d'écorce

Readme d'écorce

Readme_bark.md

Informations sur la gestion des modèles, des caches et de l'espace système pour les projets d'IA

# 186 (Répondre dans le fil)

Bibliothèques open source

Ce projet utilise les bibliothèques open source suivantes:

SUNO-AI / BARK - Licence MIT
- Description: Code d'inférence pour le modèle d'écorce.
- Référentiel: Suno / Bark
Tortoise-TTS - Licence Apache-2.0
- Description: Une bibliothèque flexible de synthèse de texte vocale pour diverses plates-formes.
- Référentiel: néonbjb / tortue-tts
FFMPEG - Licence LGPL
- Description: Une solution complète et multiplateforme pour le traitement vidéo et audio.
- Référentiel: ffmpeg
- Utilisation: codage des fichiers Vorbis ogg
Licence FFMPEG-Python - Apache 2.0
- Description: Location Python pour la bibliothèque FFMPEG pour gérer les fichiers multimédias.
- Référentiel: Kkroening / Ffmpeg-Python
Audiocraft - Licence MIT
- Description: Une bibliothèque pour la génération audio et Musicgen.
- Référentiel: FacebookResearch / Audiocraft
VOCOS - Licence MIT
- Description: Un décodeur amélioré pour les échantillons d'encodèce
- Référentiel: caractéristique-plateforme / vocos
RVC - Licence MIT
- Description: Un cadre de conversion vocal facile à utiliser basé sur les VITS.
- Référentiel: RVC-project / récupération basé sur la voix-conversion-webui

Utilisation éthique et responsable

Cette technologie est destinée à l'activation et à la créativité, et non aux dommages.

En vous engageant avec ce modèle d'IA, vous reconnaissez et acceptez de respecter ces directives, en utilisant le modèle d'IA de manière responsable, éthique et juridique.

Intention non malveillante: n'utilisez pas ce modèle d'IA pour des activités malveillantes, nocives ou illégales. Il ne doit être utilisé qu'à des fins licites et éthiques qui favorisent l'engagement positif, le partage des connaissances et les conversations constructives.
Pas d'identité: n'utilisez pas ce modèle d'IA pour vous faire passer pour une usurpation ou vous déformer en tant que personne d'autre, y compris des individus, des organisations ou des entités. Il ne doit pas être utilisé pour tromper, frauder ou manipuler les autres.
Aucune activité frauduleuse: ce modèle d'IA ne doit pas être utilisé à des fins frauduleuses, telles que les escroqueries financières, les tentatives de phishing ou toute forme de pratiques trompeuses visant à acquérir des informations sensibles, un gain monétaire ou un accès non autorisé aux systèmes.
Conformité légale: assurez-vous que votre utilisation de ce modèle d'IA est conforme aux lois, réglementations et politiques applicables concernant l'utilisation de l'IA, la protection des données, la confidentialité, la propriété intellectuelle et toute autre obligation légale pertinente dans votre juridiction.
Remerciement: En vous engageant avec ce modèle d'IA, vous reconnaissez et acceptez de respecter ces directives, en utilisant le modèle d'IA de manière responsable, éthique et légale.

Licence

Base de code et dépendances

La base de code est sous licence dans le MIT. Cependant, il est important de noter que lors de l'installation des dépendances, vous serez également soumis à leurs licences respectives. Bien que la plupart de ces licences soient permissives, il peut y en avoir qui ne le sont pas. Par conséquent, il est essentiel de comprendre que la licence permissive ne s'applique qu'à la base de code elle-même, pas à l'ensemble du projet.

Cela étant dit, l'objectif est de maintenir la compatibilité du MIT tout au long du projet. Si vous rencontrez une dépendance qui n'est pas compatible avec la licence MIT, n'hésitez pas à ouvrir un problème et à le porter à notre attention.

Dépendances connues non permissives:

Bibliothèque	Licence	Notes
encoder	CC BY-NC 4.0	Les versions plus récentes sont MIT, mais doivent être installées manuellement
diffe	CC BY-NC 4.0	Facultatif à l'avenir, non nécessaire pour s'exécuter, peut être désinstallé, doit être mis à jour avec DemUcs
boiteux	Licence GPL	Les versions futures le feront LGPL, mais doivent être installés manuellement
unidecode	Licence GPL	Pas de la mission critique, peut être remplacé par une autre bibliothèque, problème: NEONBJB / TORTOISE-TTS # 494

Poids du modèle

Les poids du modèle ont des licences différentes, veuillez prêter attention à la licence du modèle que vous utilisez.

Plus particulièrement:

Bark: MIT
Tortoise: Unknown (Apache-2.0 selon Repo, mais pas de fichier de licence dans HuggingFace)
Musicgen: CC BY-NC 4.0
Audiogène: CC BY-NC 4.0

Compatibilité / erreurs

Audiocraft n'est actuellement compatible qu'avec Linux et Windows. Le support MacOS n'est toujours pas arrivé, même s'il pourrait être possible d'installer manuellement.

La torche étant réinstallée

En raison des limitations du gestionnaire de package Python (PIP), Torch peut être réinstallé plusieurs fois. Il s'agit d'un large problème de PIP et Torch.

Messages rouges dans la console

Ces messages:

 ---- requires ----, but you have ---- which is incompatible.

Sont complètement normaux. C'est à la fois une limitation de PIP et parce que cette interface utilisateur Web combine ensemble de nombreux projets d'IA différents. Étant donné que les projets ne sont pas toujours compatibles les uns avec les autres, ils se plaindront des autres projets installés. C'est normal et attendu. Et en fin de compte, malgré les avertissements / erreurs, les projets fonctionneront ensemble. Il n'est pas clair si cette situation sera jamais résolue, mais c'est l'espoir.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-02-27
taille 4.13MB
Provenant de Github

Applications connexes

JableTVDownload WebUI

2024-11-12
flux webui

2024-11-09
open webui

2024-11-03
F5 TTS ComfyUI

2024-11-02
stable diffusion webui

2024-11-01
Génération Zéro Défis CODEX

2022-11-02

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
Sunamu

Autre code source

Release 2.2.0
MySchedule.py

Autre code source

Updates to the fetching of week codes
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout