TTS Generation Webui / armónica
Descargar instalador || Instalación || Configuración de Docker || Comentarios / informes de errores

Modelos
Texto a voz | Generación de audio/música | Conversión de audio/herramientas |
---|
Ladrar | MusicGen | RVC |
Tortuga | Imán | Fragua |
Maha TTS | Audio estable | Voces |
MMS | (Extensión) Riffusion | Susurro |
Vall-e x | (Extensión) Audiocraft Mac | |
Styletts2 | (Extensión) Audiocraft Plus | |
Sin costuram4t | | |
(Extensión) XTTSV2 | | |
(Extensión) Mars5 | | |
(Extensión) F5-TTS | | |
(Extensión) Parler TTS | | |
Bark.narration.mp4 | Ladrido.japans.mp4 | MusicGen.mp4 |
---|
Colegio de cambios
23 de noviembre:
- Agregue la rueda Linux Fairseq para una mejor compatibilidad de PIP.
22 de noviembre:
- Cambie a las ruedas, agregue un mensaje de instalación de un disparo.
15 de noviembre:
- Actualice a Gradio 5.5.0, agregue SEMPLE MECHANCE (#420)
14 de noviembre:
- Agregue la rueda experimental de ventanas profundas.
- Agregue más idiomas al clon de voz de ladrar.
11 de noviembre:
- Cambie a una versión fija de FairSeq para Windows reduciendo los conflictos de instalación y acelerando actualizaciones.
Octubre de 2024
28 de octubre:
- Pruebas de instalador agregadas, descargador de modelos y opción de solo CPU PIP para antorcha.
24 de octubre:
- Degradó a Gradio a 5.1.0 debido a un error.
- Se agregaron flujos de trabajo de prueba y corrigieron errores menores.
22 de octubre:
- Problemas fijos de Dockerfile para una implementación más suave.
21 de octubre:
- Readme rediseñado: Extensión de susurros mejorada, ChangeLogs agregados para agosto, septiembre y octubre, capturas de pantalla actualizadas y contenido reorganizado.
19 de octubre:
- Registros de extensión fijos y agregadas nuevas extensiones.
18 de octubre:
- Mejoras del sistema: proyecto formateado, instalación
xformers+cuda
fijo, sistema de registro agregado, botón de extensión de desinstalación y extensión F5 TTS.
16 de octubre:
- La primera instalación ahora usa
pip
en lugar de uv
. - Golpeó la versión principal y arregló Google Colab.
- Se agregó PIP Fallback al audio estable.
- Se corrigió los demuces, cambiado el puerto Postgres.
- Se corrigió
huggingface_hub
Instalar y cargar el modelo de barca. - Actualizaciones principales: cambiadas a Gradio 5, carga perezosa para pestañas, correcciones de Docker, velocidad de interfaz de usuario optimizada, función .env.user, registros mejorados y extensiones de UI React actualizadas.
3 de octubre:
- Se corrigió la pestaña Información de GPU y agregó
nvidia-ml-py
. - Solución creada para el error de instalación de AudioCraft.
- Se corrigió la instalación automática de MSVC y establece el servidor en
127.0.0.1
. - Se corrigió la ruta
.git_version
y eliminó iconv
para eliminar el requisito node-gyp
. - Manejo de errores de instalador mejorado, registro de hash de actualización adicional.
- Node.js actualizado a 22.9.0, soporte de PostgreSQL agregado, pestañas agrupadas en React UI.
Septiembre de 2024
Haga clic para expandir
23 de septiembre:
- Use automáticamente CUDA para MMS.
22 de septiembre:
- Se agregó la extensión de metadatos de FFMPEG para reaccionar UI.
- Aviso de mono solo para MAHA TTS.
- Hotfix para evitar el nodo 20.17.0 Falla de instalación.
21 de septiembre:
- Se agregó una demostración de audio estable para reaccionar UI.
- Diseño mejorado de la interfaz de usuario.
19 de septiembre:
- Reacts React UI Visual Look actualizado con nuevos controles deslizantes y un mejor diseño.
- UI RVC optimizada, COLAB fijado y agregó un cuadro de comando de búsqueda.
- Actualice Node.js a 20.17.0.
2 de septiembre:
- Dockerfile fijo y actualizado Docker-Compose.yml.
- Se corrigió el error en la carga NPZ.
Agosto de 2024
Haga clic para expandir
31 de agosto:
- Actualice el marco de inferencia del modelo a los decoradores.
- Movió los archivos de Python de
src
a la carpeta tts_webui
. - Reescribió la pestaña MusicGen y solucionó errores relacionados.
20 de agosto:
- Actualizado a Gradio 4 y un tema agregado.
- Se agregaron mensajes de carga del modelo para tortuga.
- RVC reactui fijo.
- Hyperparámetros refactorizados.
- Gestión agregada a la lista de extensiones, extensión XTTS-simple.
5 de agosto:
- Arregle la corteza en React UI, agregue la duración de la generación máxima.
- Cambiar el directorio de modelos de extensión AudioCraft Plus a ./data/models/audiocraft_plus/
- Mejore la descarga de modelos para MusicGen y Audiogen. Agregue el botón Modelos de descarga a MusicGen y Audiogen.
- Agregue Huggingface Cache Manager Extension.
4 de agosto:
- Agregue la extensión XTTS-RVC-UI, extensión de demostración de ajuste fino XTTS.
3 de agosto:
- Agregue la extensión de riffusion, la extensión de Audiocraft MAC, la extensión heredada de corteza.
2 de agosto:
- Agregue advertencia de deprecación al instalador antiguo.
- Unificar el manejo de errores y simplificar la carga de la pestaña.
1 de agosto:
- Agregue el botón "Intente actualizar" para extensiones externas.
- Omita los paquetes de reinstalación cuando la versión PIP_Packages no se cambia.
- Sincronice el puerto Gradio con React UI.
- Cambie el puerto de Gradio predeterminado a 7770 desde 7860.
Julio de 2024
Haga clic para expandir
31 de julio:
- Arregle la MusicGen de React UI después de que cambie el Gradio.
- Agregue el botón Descargar para susurrar la extensión.
29 de julio:
- Cambie FFMPEG a 4.4.2 de Conda-Forge para admitir más plataformas, incluida Mac M1.
- Desactivar Tortoise CVVP.
26 de julio:
- Extensión de susurro
- Soporte experimental de instalación de AMD ROCM. (Solo Linux)
25 de julio:
- Agregue scripts de diagnóstico para MacOS y Linux.
- Agregue mejores detalles de error para las pestañas.
- Corrección de permisos de ejecución de script .SH para los instaladores en Linux y MacOS.
21 de julio:
- Agregar extensión del historial de la galería (adaptado de la antigua vista de la galería)
- Convertir el remixer simple en extensión
- SEGURAR UNATY.py para usar las versiones de antorcha más nuevas (Update.py es solo para fines heredados y probablemente se romperá)
- Agregue la secuencia de comandos de diagnóstico y forje los scripts de reinstalación para Windows.
20 de julio:
- FIJO LINK DE DISCORD ANICIÓN
- Simplifique aún más la corteza, eliminando la complejidad excesiva en el código.
- Agregue la interfaz de usuario/extensiones modulares, estas extensiones permiten instalar nuevos modelos y características a la interfaz de usuario. En el futuro, los modelos comenzarán como extensiones antes de agregarse de manera permanente.
- Desactivar la vista de la galería en salidas
- Problema conocido: Firefox falla al mostrar salidas en Gradio, falla al obtenerlas del backend. Dentro de React UI esto funciona bien.
15 de julio:
- Comentario: como la interfaz de usuario React ha estado fuera durante mucho tiempo, Gradio UI tendrá el papel de servir solo las funciones al usuario, sin la interfaz de usuario extremadamente complicada que no puede manejar. Hay una verdadera escasez de tiempo de desarrollo para agregar nuevos modelos y características, pero el antiguo estilo de integración no era viable. Como se define el nuevo API y el 'El papel del modelo', será posible tener extensiones para modelos completos, lo que permite mucha más flexibilidad e instalaciones más ligeras.
- Comience a escalar la complejidad de la interfaz de usuario de Gradio: eliminado los botones RVC/Demucs/Voice . (Eliminar el componente interno Joutai).
- Agregue versión.json para mejores actualizaciones en el futuro.
- Reduzca el número máximo de salidas de Gradio Bark a 1.
- Agregue el botón Modelo de descarga a la tortuga, también descargue el modelo antes de cargar el siguiente/Cambio de parámetros, por lo que Tortoise ya no usa la memoria del modelo 2X durante el cambio de configuración.
14 de julio:
- REPROUPACIÓN PARCES DEL PROCESO EN GRUPOS: texto a discurso, conversión de audio, generación de música, salidas y configuraciones
- Limpie el encabezado, agregue el enlace para recibir comentarios
- Agregar control de semillas al audio estable
- Corrige el error de nombre de archivo de audio estable con NewLines
- Desactivar la pestaña "Remixer simple" Gradio
- Fix Bark Voice Clone y RVC una vez más
- Agregar pestaña "PAQUETES INSTALADOS" para la depuración
13 de julio:
- Actualización importante a Torch 2.3.1 y Xformers 0.0.27
- Todos los usuarios, incluidos Mac y CPU, ahora tendrán la misma versión de Pytorch.
- Actualizar CUDA a 11.8
- Obligar a Python a ser 3.10.11
- Modifique el instalador para permitir la actualización de Python y la antorcha sin reinstalarse (actualmente la versión principal 2)
- Fijar parámetros predeterminados de magnet para una mejor calidad
- Mejorar las verificaciones de script del instalador para evitar errores
- Actualizar styletts2
11 de julio:
- Mejorar los nombres de archivo de generación de audio estable
- Agregue la reinstalación de la fuerza a la reparación de la antorcha
- Haga que el instalador se actualice automáticamente antes de ejecutar
9 de julio:
- ¡Arregle las nuevas instrucciones de instalación e instalación gracias a https://github.com/xeraster!
8 de julio:
- Cambie el proceso de instalación para reducir los enfrentamientos de paquetes y habilitar la flexibilidad de la versión de antorcha.
6 de julio:
- Lanzamiento inicial del nuevo instalador basado en Mamba.
- Guardar resultados de audio estables en la carpeta salidas-rvc/stableaudio.
- Agregue un descargo de responsabilidad a la selección del modelo de audio estable y muestre mejores mensajes de error cuando faltan archivos.
1 de julio:
- Optimizar el uso estable de la memoria de audio después de la generación.
- Abra React UI automáticamente solo si Gradio también se abre automáticamente.
- Retire la reinstalación innecesaria de condimentidad de condimentidad.
- Actualización del último audio estable que tiene soporte de MPS (requiere versiones de antorcha más nuevas).
Junio de 2024
Haga clic para expandir
22 de junio: * Agregar audio estable a Gradio. 21 de junio:
- Agregue la demostración de Vall-EX para reaccionar UI.
- Abra React UI automáticamente en el navegador, solucione el enlace nuevamente.
- Agregue división por longitud para reaccionar/tortuga.
- Arregle las carpetas de demostración UVR5.
- Establezca la versión Fairseq en 0.12.2 para Linux y Mac. (#323)
- Mejorar el historial de generación para todas las pestañas React UI.
17 de mayo:
- Arregle los preajustes de tortuga en React UI.
9 de mayo:
- Agregue MMS para reaccionar UI.
- Mejorar React UI y CodeBase.
4 de mayo:
Abril de 2024
Haga clic para expandir
28 de abril: * Agregue Maha Tts para reaccionar UI. * Agregue información de GPU para reaccionar UI. 6 de abril:
- Agregue la pestaña de demostración de generación Vall-EX.
- Agregar pestaña de demostración de MMS.
- Agregue la pestaña de demostración de Maha TTS.
- Agregue la pestaña de demostración de Styletts2.
5 de abril:
- Corrige el error de instalación de RVC.
- Agregue la pestaña de demostración básica de UVR5.
4 de abril:
- Actualice RVC para incluir RVMPE y FCPE. Elimine la entrada de archivo directo para modelos e índices debido a la duplicación de archivos. Mejorar la interfaz React UI para RVC.
Marzo de 2024
Haga clic para expandir
28 de marzo:
- Pestaña de información de GPU
27 de marzo:
- Agregue información sobre la clonación de voz al clon de voz de TAB
26 de marzo:
- Agregar cuaderno de demostración de Maha TTS
22 de marzo:
- Vall-E X Demo a través del cuaderno (#292)
- Agregar React UI a Docker Image
- Agregar descargo de responsabilidad de instalar
16 de marzo:
14 de marzo:
- Cuaderno de demostración de styletts2
13 de marzo:
- Agregue la tubería experimental (Bark / Tortoise / MusicGen / Audiogen / Magnet -> RVC / Demucs / Vocos) (#287)
- Solucione el error RVC con la recarga del modelo en cada generación. Para entradas cortas que resulta en una aceleración visible.
11 de marzo:
- Agregue reproducir como audio y guarde a las voces para ladrar (#286)
- Cambie UX para mostrar que los archivos se eliminan de los favoritos
- Arreglar imágenes para voces de corteza que no se muestran
- Arreglar la reproducción de audio en favoritos
10 de marzo:
- Agregue un lote para reaccionar Magnet UI (#283)
- Agregue la traducción de audio a audio a SeamlessM4t (#284)
5 de marzo:
- Agregue un lote para reaccionar UI MusicGen (#281), gracias a https://github.com/aamir3d por solicitar esto y proporcionar comentarios
3 de marzo:
- Agregar demostración de MMS como cuaderno
- Agregar descargo de responsabilidad de VRAM MultibandDiffusion High
Febrero de 2024
Haga clic para expandir
21 de febrero:
- Corrige las compilaciones de contenedores de Docker y un error con Docker-Audiocraft
8 de febrero:
- Fix MultibandDiffusion para los modelos estéreo de MusicGen, gracias https://github.com/mykeehu
- Corrección de los pasos de instalación de Node.js en Google Colab, código por https://github.com/miaohf
6 de febrero:
- Agregar extensión de generación de archivos FLAC por https://github.com/joachip
Enero de 2024
Haga clic para expandir
21 de enero:
- Agregue el script de reparación automática CPU/M1 de antorcha con cada actualización. Para deshabilitar, edite check_cuda.py y cambie force_no_repair = true
16 de enero:
- Actualice MusicGen, agregando soporte para modelos estéreo y de melodía grandes
- Agregar imán
15 de enero:
- Actualizado de Gradio a 3.48.0
- Han aparecido varios errores visuales, si son críticos, repórtelos o degrade a Gradio.
- Gradio: suprimir advertencias inútiles
- Advertencias de supresión de tritón
- Gradio-Bark: corrige el comportamiento de la última generación como historia ", la selección vacía ya no es errores
- Mejorar la pantalla del cargador de extensiones
- Actualizar transformadores a 4.36.1 desde 4.31.0
- Agregar demostración sin costurasm4t
14 de enero:
- React UI: corrige los errores de directorio faltantes
13 de enero:
- React UI: arregla el paso de compilación de NPM que falta desde la instalación automática
12 de enero:
- React UI: arreglar los nombres para las acciones de audio
- Gradio: arreglan múltiples advertencias de API
- Integración: React UI ahora se lanza junto con Gradio, con un enlace para abrirlo
11 de enero:
- React UI: haga que la compilación funcione sin ningún error
9 de enero:
- React Ui
- Handler FIX 404 para Wavesurfer
- Pestañas de corteza de grupo juntos
8 de enero:
2023
Haga clic para expandir
Octubre de 2023
26 de octubre:
- Mejorar la selección de modelos UX para MusicGen
24 de octubre:
- Agregue React UI inicial para MusicGen y Demucs (#202)
- FIJE DRIFICIDO DE SEMILLA DE GENERACIÓN LARGA (gracias a https://github.com/520pig520)
Septiembre de 2023
21 de septiembre:
- Corteza: agregar continúa como botón de historia semántica
- Cambie a Github Docker Image Storage, nueva imagen de Docker:
-
docker pull ghcr.io/rsxdalv/tts-generation-webui:main
- Opción de corrección de server_port en la configuración #168, gracias a https://github.com/DartVauder
9 de septiembre:
- FIJA LINE DE COMANDO XDG-OPEN, gracias a https://github.com/jfronny
- Arregle las generaciones de corteza de múltiples líneas, gracias a https://github.com/slack-t y https://github.com/bkutasi
- Agregue el botón Modelo de descarga para ladrar según lo solicitado por https://github.com/aamir3d
- Agregue detalles de corteza a readme_bark.md según lo solicite https://github.com/maki9009
- Agregue "opcional" para grabar en pedido, gracias a https://github.com/maki9009
5 de septiembre:
- Agregar mezcla de voz a la corteza
- Agregue la quemadura de V1 en el aviso a la corteza (la quemadura en las indicaciones es para dirigir el modelo semántico sin pasar tiempo en generar el audio. El V1 funciona generando los tokens semánticos y luego usarlo como un aviso para el modelo semántico).
- Agregar limitador de longitud de generación para ladrar
Agosto de 2023
27 de agosto:
- Fix MusicGen ignorando la melodía #153
26 de agosto:
- Agregar envío a RVC, Demucs, Botones Vocos a ladrar y voces
24 de agosto:
- Agregue la fecha a las salidas RVC para corregir #147
- Arreglar la rueda faltante de los seguros
- Agregar el botón Enviar al botón Demucs a MusicGen
21 de agosto:
- Agregue la instalación de Vision TorchVision a Colab para MusicGen Problem Fix
- Eliminar el registro de archivos rvc_tab
20 de agosto:
- FIJA MBD reinstalando Hydra-Core al final de una actualización
18 de agosto:
- CI: Agregue una acción de GitHub para publicar automáticamente la imagen de Docker.
16 de agosto:
- Agregar "nombre" a los parámetros de generación de tortuga
15 de agosto:
- PIN de la antorcha a 2.0.0 en todos los requisitos. Archivos TXT
- Audiocraft y versiones de corteza
- Eliminar la solución de los transformadores de tortuga de Colab
- Actualizar tortuga a 2.8.0
13 de agosto:
- Potencialmente una gran solución para las nuevas instalaciones de usuarios que tuvieron problemas con la GPU no fue compatible con
11 de agosto:
- Tortoise Hotfix gracias a Manmay-Nakhashi
- Agregar opción de tortuga para cambiar tokenizer
8 de agosto:
- Actualizar audiocraft, mejorando el rendimiento de la múltiple difusión
- Corrección del parámetro de tortuga 'cond_free' desajuste con 'ultra_fast' preset
7 de agosto:
- Agregue Tortoise Deepeed Fix a Colab
6 de agosto:
- Arreglar el error de Audiogen + MBD, agregar Tortoise Fix para Colab
4 de agosto:
- Agregue la opción MultibandDiffusion a MusicGen #109
- MusicGen/Audiogen Guard tokens en la generación como archivos .npz.
3 de agosto:
2 de agosto:
- Arreglar las ubicaciones de los modelos que no se muestran después de reiniciar
Julio de 2023
26 de julio:
- Galería de voz
- Cultivo de voz
- Corrige el error de cambio de voz, cambiar el nombre de la imagen, agregue un cuadro de texto hash
- Descarga más fácil de voces (#98)
24 de julio:
- Cambiar el formato de archivo de corteza para incluir el historial hash: ... continuo_generación ... -> ... from_3ea0d063 ...
23 de julio:
- Imagen Docker gracias a https://github.com/jonfairbanks
- Mejoras de nombres de ui RVC
21 de julio:
- Fix Hubert no trabajando solo con CPU (#87)
- Agregue la demostración de Google Colab (#88)
- Nuevas ubicaciones de pestaña y modelo de configuración (para usuarios avanzados) (#90)
19 de julio:
- Agregar optimizaciones de tortuga, gracias https://github.com/manmay-nakhashi #79 (Implementos #18)
16 de julio:
- Demostración de foto de voz
- Agregue un directorio para almacenar modelos/índices RVC en y un menú desplegable
- RVC en solución no respeta a IS_HALF por CPU #74
- Modelo de tortuga y mejoras de selección de voz #73
10 de julio:
9 de julio:
- RVC Demo + Tortoise, instalador V6 con script de actualización e intentos automáticos para instalar módulos adicionales #66
5 de julio:
- Instalador V5 mejorado: más rápido y más confiable #63
2 de julio:
- Actualizar la configuración de la corteza #59
1 de julio:
Junio de 2023
29 de junio:
- Tortuga NUEVOS PARAMS #54
27 de junio:
- Corrige errores de carga ansiosos, Refactor #50
20 de junio
- Tortuga: archivos de generación de formularios largos apropiados #46
19 de junio
18 de junio:
- Actualización de Audiocraft más nuevo, agregue generaciones más largas
14 de junio:
- Agregar pestaña Vocos Wav #42
5 de junio:
- El botón de arreglar "Guardar a favoritos" en la página de generación de corteza, limpiar la consola (v4.1.1)
- Agregue la pestaña "Collections" para administrar varios conjuntos de datos diferentes y más fácil.
4 de junio:
- Actualización de V4.1 - Función hash mejorada, mejoras de código
3 de junio:
- Actualización de V4: nueva estructura de salida, vista de historial mejorada, reorganización de la base de código, metadatos mejorados, soporte de extensiones de salida
Mayo de 2023
21 de mayo:
- Actualización de V3 - Demo de clones de voz
17 de mayo:
- ACTUALIZACIÓN A V2 - Genere resultados A medida que parezcan, vista previa de las generaciones rápidas largas por pie
16 de mayo:
- Agregue la pestaña Configuración de Gradio, solucione los errores de Gradio en la consola, mejore el registro.
- Actualizar el historial y los favoritos con los botones "Usar AS Voice" y "Save Voice"
- Pestaña Agregar voces
- Pestaña de corteza: eliminar "o usar la última generación como historial"
- Mejorar la organización del código
13 de mayo:
- Habilite la generación determinista y mejore los registros generados. Créditos a Suno-AI/Bark#175.
10 de mayo:
- Habilite la posibilidad de reutilizar las indicaciones de la historia de las generaciones anteriores. Guarde las generaciones como archivos NPZ. Agregue un método conveniente para reutilizar cualquiera de las últimas 3 generaciones para las siguientes indicaciones. Agregue un botón para guardar y recopilar indicaciones de historial debajo /Voces. #10
4 de mayo:
- Generación de formularios largos (créditos a https://github.com/suno-ai/bark/blob/main/notebooks/long_form_generation.ipynb y Suno-Ai/Bark#161)
- Adaptarse al error VAR de ENV correcto
3 de mayo:
- UI mejorada de tortuga: configuración de voz, preajuste y CVVP, así como la capacidad de generar 3 resultados (#6)
2 de mayo:
- Se agregó soporte para la recolección del historial para continuar las indicaciones más largas manualmente
- Soporte agregado para las indicaciones de V2
Antes:
- Soporte agregado para Tortoise TTS
Actualización (para instalaciones antiguas)
En caso de problemas, no dude en contactar a los desarrolladores .
Haga clic para expandir
Actualización de V6 a un nuevo instalador
Recomendado: Instalación fresca
- Descargue la nueva versión y ejecute START_TTS_WEBUI.BAT (Windows) o Start_tts_webui.sh (MacOS, Linux)
- Una vez que esté terminado, cierre el servidor.
- Recomendado: Copie las generaciones antiguas al nuevo directorio, como favoritos/ salidas/ salidas-rvc/ modelos/ colecciones/ config.json
- Con precaución: puede copiar todo el nuevo directorio TTS-Generation-Webui sobre el anterior, pero puede haber algunos archivos antiguos que se pierden.
Actualización en el lugar, puede eliminar algunos archivos, ajustes
- Actualizar la instalación existente utilizando el script de plataforma update_
- Después de que la actualización ejecute el nuevo inicio_tts_webui.bat (Windows) o Start_tts_webui.sh (macOS, Linux) dentro del directorio TTS-Generation-Webui
- Una vez que se inicia el servidor, verifique si funciona.
- Con precaución: si el nuevo servidor funciona, dentro del directorio de un solo clic para instalar, elimine los antiguos instaladores_files.
¿Hay alguna forma más óptima de hacer esto?
No exactamente, el choque de dependencias, especialmente entre Conda y Python (y las dependencias ya están en un estado crítico, trasladarlas a CondA está muy lejos). Por lo tanto, si bien es posible reemplazar el antiguo instalador con el nuevo y ejecutar la actualización, los problemas son impredecibles y no se pueden hacer . Hacer una actualización para el instalador requiere muchas pruebas para que no se realice a la ligera.
Instalación
- Descargue la última versión y extraiga.
- Ejecute Start_tts_webui.bat o start_tts_webui.sh para iniciar el servidor. Le pedirá que seleccione la GPU/chip que está utilizando. Una vez que todo se haya instalado, iniciará el servidor Gradio en http: // localhost: 7770 y la interfaz de usuario react en http: // localhost: 3000.
- El registro de salida estará disponible en el archivo instalador_scripts/output.log.
Instalación manual (no recomendada)
Es posible que estas instrucciones no reflejen todas las últimas correcciones y ajustes, pero podrían ser útiles como referencia para depurar o comprender lo que hace el instalador. Esperemos que puedan ser una base para apoyar nuevas plataformas, como AMD/Intel.
Instale conda (https://docs.conda.io/projects/conda/en/latest/user-guide/install/index.html)
- (Windows) Instale las herramientas de compilación de Visual Studio/Visual Studio https://visualstudio.microsoft.com/visual-cpp-build-tools/
Configurar un entorno: conda create -n venv
Instalar git, node.js conda install -y -c conda-forge git python=3.10.11 conda-forge::nodejs=22.9.0 conda pip==23.3.2 conda-forge::uv=0.4.17 conda-forge::vswhere
a) Continúe con el script del instalador
- Active el entorno:
conda activate venv
y -
(venv) node installer_scriptsinit_app.js
- Luego ejecute el servidor con
(venv) python server.py
b) o instalar los requisitos manualmente
- Configure Pytorch con CUDA o CPU (https://pytorch.org/audio/stable/build.windows.html#install-pytorch):
-
(venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch=2.3.1 torchvision torchaudio cpuonly -c pytorch
para CPU/Mac -
(venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch[version=2.3.1,build=py3.10_cuda11.8*] pytorch-cuda=11.8 torchvision torchaudio cuda-toolkit ninja -c pytorch -c nvidia/label/cuda-11.8.0 -c nvidia
para CUDA
- Clon the Repo:
git clone https://github.com/rsxdalv/tts-generation-webui.git
- Instale los requisitos:
- Instale todos los requisitos*.txt (esta lista podría no estar actualizada, consulte https://github.com/rsxdalv/tts-generation-webui/blob/main/dockerfile#l39-l40):
-
(venv) pip install -r requirements.txt
-
(venv) pip install -r requirements_audiocraft.txt
-
(venv) pip install -r requirements_bark_hubert_quantizer.txt
-
(venv) pip install -r requirements_rvc.txt
-
(venv) pip install hydra-core==1.3.2
-
(venv) pip install -r requirements_styletts2.txt
-
(venv) pip install -r requirements_vall_e.txt
-
(venv) pip install -r requirements_maha_tts.txt
-
(venv) pip install -r requirements_stable_audio.txt
-
(venv) pip install soundfile==0.12.1
-
(venv) pip install nvidia-ml-py
- Construya la aplicación React:
(venv) cd react-ui && npm install && npm run build
- (Opcional) Configurar la base de datos:
(venv) node installer_scripts/js/applyDatabaseConfig.js
- Ejecute el servidor:
(venv) python server.py
React Ui
- Instale NodeJS (si aún no está instalado con conda)
- Instalar Dependencias React:
npm install
- Build React:
npm run build
- Reaccionar:
npm start
- Ejecute también el servidor Python:
python server.py
o con script start_tts_webui
Configuración de Docker
TTS-Generation-Webui también se puede ejecutar dentro de un contenedor Docker. Para comenzar, extraiga la imagen del registro de contenedores de GitHub:
docker pull ghcr.io/rsxdalv/tts-generation-webui:main
Una vez que se ha extraído la imagen, se puede iniciar con Docker Compose:
El contenedor tomará algún tiempo generar la primera salida, mientras que los modelos se descargan en segundo plano. El estado de esta descarga se puede verificar verificando los registros de contenedores:
docker logs tts-generation-webui
Construyendo la imagen usted mismo
Si desea construir su propio contenedor Docker, puede usar el DockerFile incluido:
docker build -t tts-generation-webui .
Tenga en cuenta que el Docker-Compose debe editarse para usar la imagen que acaba de construir.
Voces adicionales para corteza, muestras rápidas
Lectme de corteza
Readme_bark.md
Información sobre la gestión de modelos, cachés y espacio de sistema para proyectos de IA
#186 (respuesta en el hilo)
Bibliotecas de código abierto
Este proyecto utiliza las siguientes bibliotecas de código abierto:
Suno -AI/Bark - Licencia del MIT
- Descripción: Código de inferencia para el modelo de corteza.
- Repositorio: Suno/Bark
Tortoise-TTS -Licencia Apache-2.0
- Descripción: Una biblioteca de síntesis flexible de texto a voz para varias plataformas.
- Repositorio: neonbjb/tortoise-tts
FFMPEG - Licencia LGPL
- Descripción: Una solución completa y multiplataforma para el procesamiento de video y audio.
- Repositorio: FFMPEG
- Uso: codificación de archivos Vorbis OGG
FFMPEG -PYTHON - Licencia Apache 2.0
- Descripción: Python Bindings para la biblioteca FFMPEG para manejar archivos multimedia.
- Repositorio: Kkroening/Ffmpeg-Python
Audiocraft - Licencia del MIT
- Descripción: Una biblioteca para la generación de audio y MusicGen.
- Repositorio: FacebookResearch/Audiocraft
Vocos - Licencia MIT
- Descripción: un decodificador mejorado para muestras de codec
- Repositorio: Charactr-Platform/Vocos
RVC - Licencia MIT
- Descripción: Un marco de conversión de voz fácil de usar basado en VITS.
- Repositorio: RVC-Project/Recuperal-Voice-Conversion-Webui
Uso ético y responsable
Esta tecnología está destinada a habilitar y creatividad, no para daños.
Al comprometerse con este modelo de IA, usted reconoce y acepta cumplir con estas pautas, empleando el modelo de IA de manera responsable, ética y legal.
- Intención no maliciosa: no use este modelo de IA para actividades maliciosas, dañinas o ilegales. Solo debe usarse para fines legales y éticos que promuevan el compromiso positivo, el intercambio de conocimientos y las conversaciones constructivas.
- Sin suplantación: no use este modelo de IA para hacerse pasar por sí mismo o tergiversar a sí mismo como otra persona, incluidas individuos, organizaciones o entidades. No debe usarse para engañar, defraudar o manipular a los demás.
- No hay actividades fraudulentas: este modelo de IA no debe usarse para fines fraudulentos, como estafas financieras, intentos de phishing o cualquier forma de prácticas engañosas destinadas a adquirir información confidencial, ganancia monetaria o acceso no autorizado a los sistemas.
- Cumplimiento legal: Asegúrese de que su uso de este modelo de IA cumpla con las leyes, regulaciones y políticas aplicables con respecto al uso de la IA, la protección de datos, la privacidad, la propiedad intelectual y cualquier otra obligación legal relevante en su jurisdicción.
- Reconocimiento: al comprometerse con este modelo de IA, usted reconoce y acepta cumplir con estas pautas, utilizando el modelo de IA de manera responsable, ética y legal.
Licencia
Base de código y dependencias
La base de código tiene licencia bajo MIT. Sin embargo, es importante tener en cuenta que al instalar las dependencias, también estará sujeto a sus respectivas licencias. Aunque la mayoría de estas licencias son permisivas, puede haber algunas que no lo son. Por lo tanto, es esencial comprender que la licencia permisiva solo se aplica a la base de código misma, no al proyecto completo.
Dicho esto, el objetivo es mantener la compatibilidad del MIT durante todo el proyecto. Si se encuentra con una dependencia que no es compatible con la licencia del MIT, no dude en abrir un problema y llamarla.
Dependencias no predominales conocidas:
Biblioteca | Licencia | Notas |
---|
encodeco | CC BY-NC 4.0 | Las versiones más nuevas son MIT, pero deben instalarse manualmente |
diffq | CC BY-NC 4.0 | Opcional en el futuro, no necesario para ejecutar, se puede desinstalar, debe actualizarse con DemUCS |
cojera | Licencia GPL | Las versiones futuras lo convertirán en LGPL, pero deben instalarse manualmente |
unidecode | Licencia GPL | No es la misión crítica, se puede reemplazar con otra biblioteca, problema: neonbjb/tortoise-tts#494 |
Pesas de modelos
Los pesos del modelo tienen diferentes licencias, preste atención a la licencia del modelo que está utilizando.
Lo más notable:
- Corteza: MIT
- Tortoise: Desconocido (Apache-2.0 según el repositorio, pero no hay archivo de licencia en Huggingface)
- MusicGen: CC BY-NC 4.0
- Audiogen: CC BY-NC 4.0
Compatibilidad / errores
AudioCraft actualmente solo es compatible con Linux y Windows. El soporte de MacOS todavía no ha llegado, aunque podría ser posible instalar manualmente.
Reinstalado la antorcha
Debido a las limitaciones de Python Package Manager (PIP), la antorcha puede reinstalarse varias veces. Este es un problema amplio de PIP y Torch.
Mensajes rojos en la consola
Estos mensajes:
---- requires ----, but you have ---- which is incompatible.
Son completamente normales. Es una limitación de PIP y porque esta interfaz de usuario web combina muchos proyectos de IA diferentes juntos. Dado que los proyectos no siempre son compatibles entre sí, se quejarán de los otros proyectos que se están instalando. Esto es normal y esperado. Y al final, a pesar de las advertencias/errores, los proyectos funcionarán juntos. No está claro si esta situación alguna vez será resolutable, pero esa es la esperanza.