TTS Generation Webui / Harmonica
Télécharger l'installateur || Installation || Configuration du docker || Rapports de commentaires / bogues

Modèles
Texte vocal | Génération audio / musique | Conversion audio / outils |
---|
Aboyer | Musicgen | RVC |
Tortue | Aimant | Décurer |
Maha tts | Audio stable | Vocos |
MMS | (Extension) Riffusion | Chuchoter |
Vall-e x | (Extension) Audiocraft Mac | |
Styletts2 | (Extension) Audiocraft Plus | |
SEAUXM4T | | |
(Extension) xttsv2 | | |
(Extension) Mars5 | | |
(Extension) F5-TTS | | |
(Extension) Parler TTS | | |
Bark.narration.mp4 | Bark.japanais.mp4 | Musicgen.mp4 |
---|
Changelog
23 novembre:
- Ajoutez Linux Fairseq Wheel pour une meilleure compatibilité PIP.
22 novembre:
- Passez aux roues, ajoutez une invite d'installation à un coup.
15 novembre:
- Passer à Gradio 5.5.0, ajouter Ressemble Enhance (# 420)
14 novembre:
- Ajouter la roue expérimentale des fenêtres profondes.
- Ajoutez plus de langues au clone vocale d'écorce.
11 novembre:
- Passez à une version fixe Fairseq pour Windows réduisant les conflits d'installation et accélérant les mises à jour.
Octobre 2024
28 octobre:
- Ajout des tests d'installation, du téléchargeur de modèles et de l'option PIP CPU uniquement pour la torche.
24 octobre:
- Downradad Gradio à 5.1.0 en raison d'un bogue.
- Ajout de workflows de test et corriger les bogues mineurs.
22 octobre:
- Correction des problèmes Dockerfile pour le déploiement plus fluide.
21 octobre:
- Readme redessinée: extension de chuchotement améliorée, ajout de changelogs pour août, septembre et octobre, captures d'écran mises à jour et contenu réorganisé.
19 octobre:
- Correction des journaux d'extension et ajouté de nouvelles extensions.
18 octobre:
- Améliorations du système: projet formaté, Correction
xformers+cuda
Installation, Système de journal ajouté, bouton d'extension de désinstallation et extension F5 TTS.
16 octobre:
- L'installation d'abord utilise désormais
pip
au lieu des uv
. - Bumpé la version majeure et corrigé Google Colab.
- Ajout de PIP Fallback à un audio stable.
- DemUMS fixe, le port postgres modifié.
- Correction de
huggingface_hub
Installer et Bark Model chargeur. - Mises à niveau majeures: Passée à Gradio 5, chargement paresseux pour les onglets, correctifs docker, vitesse d'interface utilisateur optimisée, ajout de fonctions .env.User, journaux améliorés et extensions de réaction améliorées.
3 octobre:
- Correction de l'onglet Info GPU et ajouté
nvidia-ml-py
. - Création de solution de contournement pour le bug d'installation d'Audiocraft.
- Correction de l'installation automatique MSVC et définissez le serveur sur
127.0.0.1
. - Correction du chemin
.git_version
et supprimé iconv
pour éliminer l'exigence node-gyp
. - Amélioration de la gestion des erreurs du programme d'installation, ajout de la journalisation du hachage de mise à niveau.
- Node.js mis à niveau vers 22.9.0, ajout de support postgresql, onglets groupés dans l'interface utilisateur React.
Septembre 2024
Cliquez pour agrandir
23 sept.:
- Utilisez automatiquement CUDA pour MMS.
22 septembre:
- Ajout de l'extension des métadonnées FFMPEG à réagir l'interface utilisateur.
- Ajout d'un avis mono uniquement pour MAHA TTS.
- Hotfix pour éviter le nœud 20.17.0 Panne d'installation.
21 septembre:
- Ajout d'une démo audio stable pour réagir l'interface utilisateur.
- Amélioration de l'interface utilisateur améliorée.
19 sept.:
- Aspect visuel de l'interface utilisateur react amélioré avec de nouveaux curseurs et une meilleure mise en page.
- UI RVC optimisé, a fixé le colab et a ajouté une zone de commande de recherche.
- Mettre à niveau Node.js en 20.17.0.
2 septembre:
- Dockerfile fixe et docker-compose.yml mis à jour.
- Correction d'un bug dans le chargement NPZ.
Août 2024
Cliquez pour agrandir
31 août:
- Mettre à niveau le cadre d'inférence du modèle vers les décorateurs.
- Déplacé des fichiers Python du dossier
src
vers tts_webui
. - Réécrivez l'onglet Musicgen et corrigez les bogues associés.
20 août:
- Mise à niveau vers Gradio 4 et a ajouté le thème.
- Ajout de messages de chargement du modèle pour la tortue.
- Correction de RVC de Reacttui.
- Hyperparamètres refactorisés.
- Ajout de la liste des extensions, extension XTTS-Simple.
5 août:
- Correction de l'écorce dans l'interface utilisateur React, ajoutez la durée de la génération maximale.
- Modifier le répertoire des modèles d'extension Audiocraft Plus en ./data/models/audiocraft_plus/
- Améliorer le déchargement du modèle pour Musicgen et Audiogen. Ajoutez le bouton des modèles de déchargement à MusicGen et audiogen.
- Ajoutez une extension HuggingFace Cache Manager.
4 août:
- Ajoutez une extension XTTS-RVC-UI, Extension de démonstration finale XTts.
3 août:
- Ajouter une extension de riffusion, une extension Mac Audiocraft, une extension de Bark Legacy.
2 août:
- Ajoutez un avertissement de dépréciation à l'ancien installateur.
- Unifier la gestion des erreurs et simplifier le chargement des onglets.
1 août:
- Ajoutez le bouton "Tenter Mise à jour" pour les extensions externes.
- Évitez la réinstallation des packages lorsque la version pip_packages n'est pas modifiée.
- Synchronisez le port Gradio avec UI React.
- Modifiez le port de gradio par défaut à 7770 à partir de 7860.
Juillet 2024
Cliquez pour agrandir
31 juillet:
- Fix MusicGen de REACT UI après les changements de Gradio.
- Ajouter le bouton de déchargement à l'extension chuchotée.
29 juillet:
- Changer FFMPEG en 4.4.2 de Conda-Forge afin de prendre en charge plus de plateformes, y compris Mac M1.
- Désactiver la tortue CVVP.
26 juillet:
- Extension de chuchotement
- Prise en charge expérimentale de l'installation AMD ROCM. (Linux seulement)
25 juillet:
- Ajoutez des scripts diagnostiques pour macOS et Linux.
- Ajoutez de meilleurs détails d'erreur pour les onglets.
- Correction des autorisations d'exécution de script .sh pour les installateurs sur Linux et MacOS.
21 juillet:
- Ajouter une extension de l'histoire de la galerie (adaptée de l'ancienne vue de la galerie)
- Convertir le remixer simple en extension
- Fix Update.py pour utiliser les versions de torche plus récentes (Update.py est uniquement à des fins héritées et se cassera probablement)
- Ajouter le script de diagnostic et forcer la réinstallation des scripts pour Windows.
20 juillet:
- Correction du lien de jointure Discord
- Simplifiez l'écorce davantage, en supprimant une complexité excessive dans le code.
- Ajoutez des extensions d'interface utilisateur / modulaires, ces extensions permettent d'installer de nouveaux modèles et fonctionnalités à l'interface utilisateur. À l'avenir, les modèles commenceront comme des extensions avant d'être ajoutés de façon permanente.
- Désactiver la vue de la galerie dans les sorties
- Problème connu: Firefox échoue à afficher les sorties dans Gradio, il échoue à les récupérer du backend. Dans REACT UI, cela fonctionne bien.
15 juillet:
- Commentaire - Comme l'interface utilisateur React est sortie depuis longtemps maintenant, Gradio UI va avoir le rôle de service uniquement des fonctions à l'utilisateur, sans l'interface utilisateur extrêmement compliquée qu'il ne peut pas gérer. Il y a une réelle pénurie de temps de développement pour ajouter de nouveaux modèles et fonctionnalités, mais l'ancien style d'intégration n'était pas viable. Comme les nouvelles API et «le rôle du modèle» sont définis, il sera possible d'avoir des extensions pour des modèles entiers, permettant beaucoup plus de flexibilité et d'installations plus légères.
- Démarrer la rédaction de la complexité de Gradio UI - Suppression des boutons RVC / DeMUCS / VOCH . (Supprimer le composant interne Joutai).
- Ajouter la version.json pour de meilleures mises à jour à l'avenir.
- Réduisez le nombre maximum d'écorce de graddio de sorties à 1.
- Ajoutez le bouton de modèle de déchargement à Tortoise, déchargez également le modèle avant de charger les paramètres suivants / changeants, donc la tortue n'utilise plus la mémoire du modèle 2x pendant la modification des paramètres.
14 juillet:
- Regroupez les onglets Gradio en groupes - Texte à la parole, conversion audio, génération de musique, sorties et paramètres
- Nettoyez l'en-tête, ajoutez un lien pour les commentaires
- Ajouter un contrôle des graines à l'audio stable
- Correction d'un bogue de nom de fichier audio stable avec Newlines
- Désactiver l'onglet Gradio "Remixer simple"
- Fix à nouveau du clone vocal d'écorce et RVC
- Ajouter l'onglet "Packages installés" pour le débogage
13 juillet:
- Mise à niveau majeure vers la torche 2.3.1 et XFORMERS 0.0.27
- Tous les utilisateurs, y compris Mac et CPU, auront désormais la même version Pytorch.
- Mettre à niveau CUDA à 11.8
- Forcer Python à être 3.10.11
- Modifiez l'installateur pour permettre la mise à niveau de Python et de la torche sans réinstaller (actuellement majeure version 2)
- Correction des paramètres par défaut de l'aimant pour une meilleure qualité
- Améliorer les vérifications du script d'installation pour éviter les bogues
- Mettre à jour Styletts2
11 juillet:
- Améliorer les noms de fichiers de génération d'audio stables
- Ajouter une réinstallation de force à la réparation de la torche
- Faites la mise à jour automatique du programme d'installation avant d'exécuter
9 juillet:
- Corrigez les nouvelles instructions d'installation et d'installation grâce à https://github.com/xeraster!
8 juillet:
- Modifiez le processus d'installation pour réduire les affrontements de packages et activer la flexibilité de la version torche.
6 juillet:
- Version initiale du nouveau programme d'installation basé sur Mamba.
- Enregistrez les résultats audio stables dans le dossier de sorties-RVC / stableAudio.
- Ajoutez un avertissement à la sélection de modèle audio stable et affichez de meilleurs messages d'erreur en cas de manque de fichiers.
1er juillet:
- Optimiser l'utilisation de la mémoire audio stable après la génération.
- Open React UI automatiquement uniquement si Gradio s'ouvre également automatiquement.
- Retirez la réinstallation de conda git inutile.
- Mise à jour de la dernière audio stable qui a une prise en charge MPS (nécessite des versions de torche plus récentes).
Juin 2024
Cliquez pour agrandir
22 juin: * Ajouter un son stable à Gradio. 21 juin:
- Ajoutez une démo VALL-EX pour réagir l'interface utilisateur.
- Ouvrez l'interface utilisateur de réact automatiquement dans le navigateur, réparez à nouveau le lien.
- Ajouter la division par longueur pour réagir / tortue.
- Corrigez les dossiers de démonstration UVR5.
- Définissez la version Fairseq sur 0.12.2 pour Linux et Mac. (# 323)
- Améliorez l'historique de la génération pour tous les onglets d'interface utilisateur React.
17 mai:
- Correction des préréglages de tortue dans l'interface utilisateur React.
9 mai:
- Ajouter des MMS pour réagir l'interface utilisateur.
- Améliorer l'interface utilisateur et la base de code React.
4 mai:
- Groupe Changelog par mois
Avril 2024
Cliquez pour agrandir
28 avril: * Ajoutez des maha tts pour réagir l'interface utilisateur. * Ajoutez des informations GPU pour réagir l'interface utilisateur. 6 avril:
- Ajoutez l'onglet de démonstration de génération Vall-Ex.
- Ajouter l'onglet Demo MMS.
- Ajoutez l'onglet de démonstration MAHA TTS.
- Ajouter l'onglet Demo Styletts2.
5 avril:
- Correction du bug d'installation RVC.
- Ajoutez une onglet de démonstration UVR5 de base.
4 avril:
- Mettez à niveau RVC pour inclure RVMPE et FCPE. Supprimez l'entrée de fichier direct pour les modèles et les index en raison de la duplication de fichier. Améliorez l'interface UI React pour RVC.
Mars 2024
Cliquez pour agrandir
28 mars:
- Ajouter un onglet d'information GPU
27 mars:
- Ajouter des informations sur le clonage vocal au clone vocale d'onglet
26 mars:
- Ajouter le cahier de démonstration MAHA TTS
22 mars:
- Demo Vall-E x via le cahier (# 292)
- Ajouter une interface utilisateur React à l'image docker
- Ajouter une avertissement d'installation
16 mars:
- Améliorer les vocos à 0.1.0
14 mars:
13 mars:
- Ajouter le pipeline expérimental (Bark / Tortoise / Musicgen / Audiogen / Aagnet -> RVC / DemUcs / Vocos) (# 287)
- Correction du bug RVC avec le rechargement du modèle à chaque génération. Pour les entrées courtes, ce qui se traduit par une accélération visible.
11 mars:
- Ajouter le jeu en tant qu'audio et enregistrer sur Voices to Bark (# 286)
- Modifier UX pour montrer que les fichiers sont supprimés des favoris
- Correction d'images pour les voix d'écorce qui ne montrent pas
- Correction de la lecture audio dans les favoris
10 mars:
- Ajouter un lot à React UI Magnet (# 283)
- Ajouter l'audio à la traduction audio à Seamlessm4t (# 284)
5 mars:
- Ajouter un lot à React UI Musicgen (# 281), grâce à https://github.com/aamir3d pour avoir demandé cela et fournir des commentaires
3 mars:
- Ajouter la démo MMS en tant que cahier
- Ajouter une clause de non-responsabilité VRAM High VRAM Multibanddiffusion
Février 2024
Cliquez pour agrandir
21 février:
- Corrigez les versions de conteneurs Docker et Bug avec Docker-Audiocraft
8 février:
- Corrigez le multibanddiffusion pour les modèles stéréo de Musicgen, merci https://github.com/mykeehu
- Correction des étapes d'installation de node.js sur Google Colab, code par https://github.com/miaohf
6 février:
- Ajoutez une extension de génération de fichiers FLAC par https://github.com/joachip
Janvier 2024
Cliquez pour agrandir
21 janvier:
- Ajoutez le script CPU / M1 Torch Auto-Repair à chaque mise à jour. Pour désactiver, modifiez Check_cuda.py et modifiez Force_No_Repair = True
16 janvier:
- Mettre à niveau MusicGen, en ajoutant un support pour les modèles stéréo et de grands mélodie
- Ajouter
15 janvier:
- Gradio amélioré à 3,48.0
- Plusieurs bogues visuels sont apparus, s'ils sont critiques, veuillez les signaler ou rétrograder Gradio.
- Gradio: supprimer les avertissements inutiles
- Avertissements en supprime Triton
- Gradio-Bark: Correction de "Utiliser le comportement de la dernière génération comme historique", la sélection vide ne plus les erreurs
- Améliorer l'affichage des chargeurs d'extensions
- Améliorer les transformateurs à 4.36.1 à partir de 4.31.0
- Ajouter une démonstration de couture
14 janvier:
- Réagir l'interface utilisateur: corriger les erreurs du répertoire manquant
13 janvier:
- Réagir l'interface utilisateur: corriger l'étape de construction du NPM manquant à partir de l'installation automatique
12 janvier:
- React ui: corrige les noms pour les actions audio
- Gradio: Correction de plusieurs avertissements d'API
- Intégration - REACT UI est maintenant lancé aux côtés de Gradio, avec un lien pour l'ouvrir
11 janvier:
- Réagir l'interface utilisateur: faire fonctionner la construction sans aucune erreur
9 janvier:
- Réagir l'interface utilisateur
- Fix 404 Handler pour wavesurfer
- Onglets d'écorce de groupe ensemble
8 janvier:
2023
Cliquez pour agrandir
Octobre 2023
26 octobre:
- Améliorer la sélection du modèle UX pour Musicgen
24 octobre:
- Ajouter une interface utilisateur initiale pour Musicgen et DemUcs (# 202)
- Fix Bark Long Generation Seed Drifting (Merci à https://github.com/520pig520)
Septembre 2023
21 septembre:
- Bark: Ajouter Continuer comme bouton d'histoire sémantique
- Passez à GitHub Docker Image Storage, nouvelle image Docker:
-
docker pull ghcr.io/rsxdalv/tts-generation-webui:main
- Correction de l'option Server_port dans Config # 168, grâce à https://github.com/dartvauder
9 sept.:
- Correction de la ligne de commande XDG-Open, grâce à https://github.com/jfronny
- Correction des générations d'écorce multi-lignes, grâce à https://github.com/slack-t et https://github.com/bkutasi
- Ajouter le bouton de déchargement du modèle à l'écorce comme demandé par https://github.com/aamir3d
- Ajoutez des détails d'écorce à readme_bark.md comme demandé par https://github.com/maki9009
- Ajouter "facultatif" à brûler dans l'invite, grâce à https://github.com/maki9009
5 sept.:
- Ajouter le mélange de voix à l'écorce
- Ajouter V1 Burn in Prompt to Bark (la brûlure dans les invites consiste à diriger le modèle sémantique sans passer du temps à générer l'audio. Le V1 fonctionne en générant les jetons sémantiques puis en l'utilisant comme invite pour le modèle sémantique.)
- Ajouter un limiteur de longueur de génération à l'écorce
Août 2023
27 août:
- Fix Musicgen Ignorer la mélodie # 153
26 août:
- Ajouter Envoyer à RVC, DemUcs, Buttons vocos à Bark et Vocos
24 août:
- Ajouter une date aux sorties RVC pour corriger # 147
- Correction de la roue manquante de safet
- Ajouter le bouton Envoyer à DemUcs à MusicGen
21 août:
- Ajouter l'installation de TorchVision à Colab pour Musicgen Issue Fix
- Supprimer la journalisation du fichier RVC_TAB
20 août:
- Correction de MBD en réinstallant l'hydra-core à la fin d'une mise à jour
18 août:
- CI: Ajoutez une action GitHub pour publier automatiquement l'image Docker.
16 août:
- Ajouter "nom" aux paramètres de génération de tortue
15 août:
- Épingler la torche à 2.0.0 dans tous les fichiers exigences.txt
- Bump audiocraft et versions d'écorce
- Supprimer la correction des transformateurs de tortue de Colab
- Mettre à jour la tortue à 2.8.0
13 août:
- Potentiellement grosse correction pour les nouvelles installations d'utilisateurs qui avaient des problèmes avec GPU qui ne sont pas pris en charge
11 août:
- Tortoise Hotfix grâce à Manmay-Nakhashi
- Ajouter une option de tortue pour modifier le tokenizer
8 août:
- Mettre à jour Audiocraft, améliorer les performances multibanddiffusion
- Correction du paramètre Tortoise 'Calmatch' Camematch avec le préréglage «Ultra_fast»
7 août:
- Ajouter une correction de tortoise Deeppeed à Colab
6 août:
- Correction de l'erreur Audiogen + MBD, ajoutez une correction de tortue pour Colab
4 août:
- Ajouter une option multibanddiffusion à Musicgen # 109
- Les jetons de sauvegarde de MusicGen / Audiogen sur la génération en tant que fichiers .npz.
3 août:
2 août:
- Correction des emplacements du modèle qui ne se montrent pas après le redémarrage
Juillet 2023
26 juillet:
- Galerie de voix
- Croping vocal
- Correction de la refroidissement de la voix, de renommée image également, ajoutez une zone de texte de hachage
- Téléchargement plus facile de voix (# 98)
24 juillet:
- Modifiez le format de fichier d'écorce pour inclure l'historique Hash: ... Suite_GENERATION ... -> ... de_3ea0d063 ...
23 juillet:
- Image docker grâce à https://github.com/jonfairbanks
- RVC Ui Naming Améliorations
21 juillet:
- Fix Hubert ne travaillant pas uniquement avec CPU (# 87)
- Ajouter la démo Google Colab (# 88)
- NOUVEAUX paramètres d'onglet Paramètres et des emplacements du modèle (pour les utilisateurs avancés) (# 90)
19 juillet:
- Ajoutez des optimisations de tortue, merci https://github.com/manmay-nakhashi # 79 (outils # 18)
16 juillet:
- Demo de photo vocale
- Ajouter un répertoire pour stocker les modèles / index RVC et une liste déroulante
- RVC de solution de contournement ne respecte pas IS_HALF pour le processeur # 74
- Modèle de tortue et améliorations de sélection de voix # 73
10 juillet:
9 juillet:
- RVC Demo + Tortoise, V6 Installateur avec script de mise à jour et tentatives automatiques pour installer des modules supplémentaires # 66
5 juillet:
- Installateur V5 amélioré - plus rapide et plus fiable # 63
2 juillet:
- Mettre à niveau les paramètres d'écorce n ° 59
1er juillet:
Juin 2023
29 juin:
- Tortue nouveaux params # 54
27 juin:
- Correction des erreurs de chargement avides, refactor # 50
20 juin
- Tortoise: fichiers de génération longue longue forme # 46
19 juin
- Tortoise-mise à niveau n ° 45
18 juin:
- Mise à jour de la nouvelle audiocraft, ajoutez des générations plus longues
14 juin:
- Ajouter vocos wav onglet # 42
5 juin:
- Corrigez le bouton "Enregistrer vers les favoris" sur la page de génération d'écorce, nettoyez la console (v4.1.1)
- Ajoutez un onglet "Collections" pour gérer plusieurs ensembles de données différents et une augmentation plus facile.
4 juin:
- Mise à jour de la v4.1 - amélioration de la fonction de hachage, améliorations de code
3 juin:
- Mise à jour de V4 - Nouvelle structure de sortie, vue de l'historique améliorée, réorganisation de la base de code, métadonnées améliorées, support d'extensions de sortie
Mai 2023
21 mai:
- Mise à jour de la V3 - Demo de clone vocal
17 mai:
- Mise à jour de V2 - générer des résultats au fur et à mesure qu'ils apparaissent, prévisualisez les générations longues longues pièce par pièce, activez jusqu'à 9 sorties, ajustements d'interface utilisateur
16 mai:
- Ajouter l'onglet Paramètres Gradio, fixer les erreurs de gradio dans la console, améliorer la journalisation.
- Mettre à jour l'historique et les favoris avec les boutons "Utiliser As Voice" et "Enregistrer la voix"
- Ajouter l'onglet des voix
- Onglet d'écorce: supprimez "ou utilisez la dernière génération comme historique"
- Améliorer l'organisation du code
13 mai:
- Activer la génération déterministe et améliorer les journaux générés. Crédits à Suno-ai / Bark # 175.
10 mai:
- Activer la possibilité de réutiliser les invites d'histoire des générations plus anciennes. Enregistrer les générations sous forme de fichiers NPZ. Ajoutez une méthode pratique pour réutiliser l'une des 3 dernières générations pour les invites suivantes. Ajoutez un bouton pour enregistrer et collecter des invites d'historique sous / voix. # 10
4 mai:
- Génération longue de formulaire (crédits à https://github.com/suno-ai/bark/blob/main/notebooks/long_form_generation.ipynb et suno-ai / bark # 161)
- S'adapter à un bug env var fixe
3 mai:
- Interface utilisateur de tortue améliorée: paramètres de voix, préréglage et CVVP ainsi que la capacité de générer 3 résultats (# 6)
2 mai:
- Ajout d'un support pour les recycles d'historique pour continuer les invites plus longues manuellement
- Ajout de la prise en charge des invites V2
Avant:
- Ajout du support pour TTSE TTS
Mise à niveau (pour les anciennes installations)
En cas de problèmes, n'hésitez pas à contacter les développeurs .
Cliquez pour agrandir
Mise à niveau de V6 à un nouveau programme d'installation
Recommandé: Installation fraîche
- Téléchargez la nouvelle version et exécutez le start_tts_webui.bat (Windows) ou start_tts_webui.sh (macOS, Linux)
- Une fois terminé, fermez le serveur.
- Recommandé: Copiez les anciennes générations dans le nouveau répertoire, telles que les favoris / sorties / sorties-rvc / modèles / collections / config.json
- Avec prudence: vous pouvez copier l'ensemble du nouveau répertoire TTS-Generation-Webui sur l'ancien, mais il pourrait y avoir des fichiers anciens qui sont perdus.
Mise à niveau en place, peut supprimer certains fichiers, ajustement
- Mettez à jour l'installation existante à l'aide du script de plate-forme Update_
- Après la mise à jour, exécutez le nouveau start_tts_webui.bat (Windows) ou start_tts_webui.sh (macOS, Linux) à l'intérieur du répertoire TTS-Generation-webui
- Une fois le serveur démontr, vérifiez si cela fonctionne.
- Avec prudence: si le nouveau serveur fonctionne, dans le répertoire en un clic, supprimez l'ancien installer_files.
Y a-t-il un moyen plus optimal de le faire?
Pas exactement, les dépendances s'affrontent, en particulier entre Conda et Python (et les dépendances sont déjà dans un état critique, les déplacer vers Conda est des moyens éteints). Par conséquent, bien qu'il puisse être possible de simplement remplacer l'ancien installateur par le nouveau et d'exécuter la mise à jour, les problèmes sont imprévisibles et imprévoyables . Faire une mise à jour de l'installateur nécessite beaucoup de tests, donc il n'est pas fait à la légère.
Installation
- Téléchargez la dernière version et extraire.
- Exécutez start_tts_webui.bat ou start_tts_webui.sh pour démarrer le serveur. Il vous demandera de sélectionner le GPU / Chip que vous utilisez. Une fois que tout a été installé, il démarrera le serveur Gradio sur http: // localhost: 7770 et l'interface utilisateur React sur http: // localhost: 3000.
- Le journal de sortie sera disponible dans le fichier Installer_Scripts / Output.log.
Installation manuelle (non recommandée)
Ces instructions peuvent ne pas refléter tous les derniers correctifs et ajustements, mais pourraient être utiles comme référence pour déboguer ou comprendre ce que fait l'installateur. J'espère qu'ils pourront être une base pour soutenir de nouvelles plateformes, telles que AMD / Intel.
Installez conda (https://docs.conda.io/projects/conda/en/latest/user-guide/install/index.html)
- (Windows) Installez Visual Studio Compiler / Visual Studio Build Tools https://visualstudio.microsoft.com/visual-cpp-build-tools/
Configurer un environnement: conda create -n venv
Installer git, node.js conda install -y -c conda-forge git python=3.10.11 conda-forge::nodejs=22.9.0 conda pip==23.3.2 conda-forge::uv=0.4.17 conda-forge::vswhere
a) Soit continuer avec le script d'installation
- activer l'environnement:
conda activate venv
et -
(venv) node installer_scriptsinit_app.js
- Ensuite, exécutez le serveur avec
(venv) python server.py
b) ou installer les exigences manuellement
- Configurez Pytorch avec Cuda ou CPU (https://pytorch.org/audio/stable/build.windows.html#install-pytorch):
-
(venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch=2.3.1 torchvision torchaudio cpuonly -c pytorch
pour CPU / Mac -
(venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch[version=2.3.1,build=py3.10_cuda11.8*] pytorch-cuda=11.8 torchvision torchaudio cuda-toolkit ninja -c pytorch -c nvidia/label/cuda-11.8.0 -c nvidia
pour cuda
- Clone The Repo:
git clone https://github.com/rsxdalv/tts-generation-webui.git
- Installez les exigences:
- Installez toutes les exigences * .txt (cette liste peut ne pas être à jour, cochez https://github.com/rsxdalv/tts-generation-webui/blob/main/dockerfile#l39-l40):
-
(venv) pip install -r requirements.txt
-
(venv) pip install -r requirements_audiocraft.txt
-
(venv) pip install -r requirements_bark_hubert_quantizer.txt
-
(venv) pip install -r requirements_rvc.txt
-
(venv) pip install hydra-core==1.3.2
-
(venv) pip install -r requirements_styletts2.txt
-
(venv) pip install -r requirements_vall_e.txt
-
(venv) pip install -r requirements_maha_tts.txt
-
(venv) pip install -r requirements_stable_audio.txt
-
(venv) pip install soundfile==0.12.1
-
(venv) pip install nvidia-ml-py
- Création de l'application React:
(venv) cd react-ui && npm install && npm run build
- (Facultatif) Configuration de la base de données:
(venv) node installer_scripts/js/applyDatabaseConfig.js
- Exécutez le serveur:
(venv) python server.py
Réagir l'interface utilisateur
- Installez NodeJS (s'il n'est pas déjà installé avec conda)
- Installer les dépendances React:
npm install
- Build react:
npm run build
- Run React:
npm start
- Exécutez également le serveur Python:
python server.py
ou avec start_tts_webui
script
Configuration de Docker
La génération tts-webui peut également être exécutée à l'intérieur d'un conteneur Docker. Pour commencer, tirez l'image du registre des conteneurs GitHub:
docker pull ghcr.io/rsxdalv/tts-generation-webui:main
Une fois l'image retirée, elle peut être démarrée avec Docker Compose:
Le conteneur prendra un certain temps pour générer la première sortie tandis que les modèles sont téléchargés en arrière-plan. Le statut de ce téléchargement peut être vérifié en vérifiant les journaux des conteneurs:
docker logs tts-generation-webui
Construire l'image vous-même
Si vous souhaitez créer votre propre conteneur Docker, vous pouvez utiliser le Dockerfile inclus:
docker build -t tts-generation-webui .
Veuillez noter que le compose Docker doit être modifié pour utiliser l'image que vous venez de construire.
Des voix supplémentaires pour l'écorce, des échantillons rapides
Readme d'écorce
Readme_bark.md
Informations sur la gestion des modèles, des caches et de l'espace système pour les projets d'IA
# 186 (Répondre dans le fil)
Bibliothèques open source
Ce projet utilise les bibliothèques open source suivantes:
SUNO-AI / BARK - Licence MIT
- Description: Code d'inférence pour le modèle d'écorce.
- Référentiel: Suno / Bark
Tortoise-TTS - Licence Apache-2.0
- Description: Une bibliothèque flexible de synthèse de texte vocale pour diverses plates-formes.
- Référentiel: néonbjb / tortue-tts
FFMPEG - Licence LGPL
- Description: Une solution complète et multiplateforme pour le traitement vidéo et audio.
- Référentiel: ffmpeg
- Utilisation: codage des fichiers Vorbis ogg
Licence FFMPEG-Python - Apache 2.0
- Description: Location Python pour la bibliothèque FFMPEG pour gérer les fichiers multimédias.
- Référentiel: Kkroening / Ffmpeg-Python
Audiocraft - Licence MIT
- Description: Une bibliothèque pour la génération audio et Musicgen.
- Référentiel: FacebookResearch / Audiocraft
VOCOS - Licence MIT
- Description: Un décodeur amélioré pour les échantillons d'encodèce
- Référentiel: caractéristique-plateforme / vocos
RVC - Licence MIT
- Description: Un cadre de conversion vocal facile à utiliser basé sur les VITS.
- Référentiel: RVC-project / récupération basé sur la voix-conversion-webui
Utilisation éthique et responsable
Cette technologie est destinée à l'activation et à la créativité, et non aux dommages.
En vous engageant avec ce modèle d'IA, vous reconnaissez et acceptez de respecter ces directives, en utilisant le modèle d'IA de manière responsable, éthique et juridique.
- Intention non malveillante: n'utilisez pas ce modèle d'IA pour des activités malveillantes, nocives ou illégales. Il ne doit être utilisé qu'à des fins licites et éthiques qui favorisent l'engagement positif, le partage des connaissances et les conversations constructives.
- Pas d'identité: n'utilisez pas ce modèle d'IA pour vous faire passer pour une usurpation ou vous déformer en tant que personne d'autre, y compris des individus, des organisations ou des entités. Il ne doit pas être utilisé pour tromper, frauder ou manipuler les autres.
- Aucune activité frauduleuse: ce modèle d'IA ne doit pas être utilisé à des fins frauduleuses, telles que les escroqueries financières, les tentatives de phishing ou toute forme de pratiques trompeuses visant à acquérir des informations sensibles, un gain monétaire ou un accès non autorisé aux systèmes.
- Conformité légale: assurez-vous que votre utilisation de ce modèle d'IA est conforme aux lois, réglementations et politiques applicables concernant l'utilisation de l'IA, la protection des données, la confidentialité, la propriété intellectuelle et toute autre obligation légale pertinente dans votre juridiction.
- Remerciement: En vous engageant avec ce modèle d'IA, vous reconnaissez et acceptez de respecter ces directives, en utilisant le modèle d'IA de manière responsable, éthique et légale.
Licence
Base de code et dépendances
La base de code est sous licence dans le MIT. Cependant, il est important de noter que lors de l'installation des dépendances, vous serez également soumis à leurs licences respectives. Bien que la plupart de ces licences soient permissives, il peut y en avoir qui ne le sont pas. Par conséquent, il est essentiel de comprendre que la licence permissive ne s'applique qu'à la base de code elle-même, pas à l'ensemble du projet.
Cela étant dit, l'objectif est de maintenir la compatibilité du MIT tout au long du projet. Si vous rencontrez une dépendance qui n'est pas compatible avec la licence MIT, n'hésitez pas à ouvrir un problème et à le porter à notre attention.
Dépendances connues non permissives:
Bibliothèque | Licence | Notes |
---|
encoder | CC BY-NC 4.0 | Les versions plus récentes sont MIT, mais doivent être installées manuellement |
diffe | CC BY-NC 4.0 | Facultatif à l'avenir, non nécessaire pour s'exécuter, peut être désinstallé, doit être mis à jour avec DemUcs |
boiteux | Licence GPL | Les versions futures le feront LGPL, mais doivent être installés manuellement |
unidecode | Licence GPL | Pas de la mission critique, peut être remplacé par une autre bibliothèque, problème: NEONBJB / TORTOISE-TTS # 494 |
Poids du modèle
Les poids du modèle ont des licences différentes, veuillez prêter attention à la licence du modèle que vous utilisez.
Plus particulièrement:
- Bark: MIT
- Tortoise: Unknown (Apache-2.0 selon Repo, mais pas de fichier de licence dans HuggingFace)
- Musicgen: CC BY-NC 4.0
- Audiogène: CC BY-NC 4.0
Compatibilité / erreurs
Audiocraft n'est actuellement compatible qu'avec Linux et Windows. Le support MacOS n'est toujours pas arrivé, même s'il pourrait être possible d'installer manuellement.
La torche étant réinstallée
En raison des limitations du gestionnaire de package Python (PIP), Torch peut être réinstallé plusieurs fois. Il s'agit d'un large problème de PIP et Torch.
Messages rouges dans la console
Ces messages:
---- requires ----, but you have ---- which is incompatible.
Sont complètement normaux. C'est à la fois une limitation de PIP et parce que cette interface utilisateur Web combine ensemble de nombreux projets d'IA différents. Étant donné que les projets ne sont pas toujours compatibles les uns avec les autres, ils se plaindront des autres projets installés. C'est normal et attendu. Et en fin de compte, malgré les avertissements / erreurs, les projets fonctionneront ensemble. Il n'est pas clair si cette situation sera jamais résolue, mais c'est l'espoir.