Descarga tts generation webui - Descargar el código fuente tts generation webui

tts generation webui

Otro código fuente

1.0.0

Descargar

TTS Generation Webui / armónica

Descargar instalador || Instalación || Configuración de Docker || Comentarios / informes de errores

bandera

Videos

Modelos

Texto a voz	Generación de audio/música	Conversión de audio/herramientas
Ladrar	MusicGen	RVC
Tortuga	Imán	Fragua
Maha TTS	Audio estable	Voces
MMS	(Extensión) Riffusion	Susurro
Vall-e x	(Extensión) Audiocraft Mac
Styletts2	(Extensión) Audiocraft Plus
Sin costuram4t
(Extensión) XTTSV2
(Extensión) Mars5
(Extensión) F5-TTS
(Extensión) Parler TTS

Ejemplos

Bark.narration.mp4	Ladrido.japans.mp4	MusicGen.mp4

Capturas de pantalla

Colegio de cambios

23 de noviembre:

Agregue la rueda Linux Fairseq para una mejor compatibilidad de PIP.

22 de noviembre:

Cambie a las ruedas, agregue un mensaje de instalación de un disparo.

15 de noviembre:

Actualice a Gradio 5.5.0, agregue SEMPLE MECHANCE (#420)

14 de noviembre:

Agregue la rueda experimental de ventanas profundas.
Agregue más idiomas al clon de voz de ladrar.

11 de noviembre:

Cambie a una versión fija de FairSeq para Windows reduciendo los conflictos de instalación y acelerando actualizaciones.

Octubre de 2024

28 de octubre:

Pruebas de instalador agregadas, descargador de modelos y opción de solo CPU PIP para antorcha.

24 de octubre:

Degradó a Gradio a 5.1.0 debido a un error.
Se agregaron flujos de trabajo de prueba y corrigieron errores menores.

22 de octubre:

Problemas fijos de Dockerfile para una implementación más suave.

21 de octubre:

Readme rediseñado: Extensión de susurros mejorada, ChangeLogs agregados para agosto, septiembre y octubre, capturas de pantalla actualizadas y contenido reorganizado.

19 de octubre:

Registros de extensión fijos y agregadas nuevas extensiones.

18 de octubre:

Mejoras del sistema: proyecto formateado, instalación xformers+cuda fijo, sistema de registro agregado, botón de extensión de desinstalación y extensión F5 TTS.

16 de octubre:

La primera instalación ahora usa pip en lugar de uv .
Golpeó la versión principal y arregló Google Colab.
Se agregó PIP Fallback al audio estable.
Se corrigió los demuces, cambiado el puerto Postgres.
Se corrigió huggingface_hub Instalar y cargar el modelo de barca.
Actualizaciones principales: cambiadas a Gradio 5, carga perezosa para pestañas, correcciones de Docker, velocidad de interfaz de usuario optimizada, función .env.user, registros mejorados y extensiones de UI React actualizadas.

3 de octubre:

Se corrigió la pestaña Información de GPU y agregó nvidia-ml-py .
Solución creada para el error de instalación de AudioCraft.
Se corrigió la instalación automática de MSVC y establece el servidor en 127.0.0.1 .
Se corrigió la ruta .git_version y eliminó iconv para eliminar el requisito node-gyp .
Manejo de errores de instalador mejorado, registro de hash de actualización adicional.
Node.js actualizado a 22.9.0, soporte de PostgreSQL agregado, pestañas agrupadas en React UI.

Septiembre de 2024

Haga clic para expandir

23 de septiembre:

Use automáticamente CUDA para MMS.

22 de septiembre:

Se agregó la extensión de metadatos de FFMPEG para reaccionar UI.
Aviso de mono solo para MAHA TTS.
Hotfix para evitar el nodo 20.17.0 Falla de instalación.

21 de septiembre:

Se agregó una demostración de audio estable para reaccionar UI.
Diseño mejorado de la interfaz de usuario.

19 de septiembre:

Reacts React UI Visual Look actualizado con nuevos controles deslizantes y un mejor diseño.
UI RVC optimizada, COLAB fijado y agregó un cuadro de comando de búsqueda.
Actualice Node.js a 20.17.0.

2 de septiembre:

Dockerfile fijo y actualizado Docker-Compose.yml.
Se corrigió el error en la carga NPZ.

Agosto de 2024

Haga clic para expandir

31 de agosto:

Actualice el marco de inferencia del modelo a los decoradores.
Movió los archivos de Python de src a la carpeta tts_webui .
Reescribió la pestaña MusicGen y solucionó errores relacionados.

20 de agosto:

Actualizado a Gradio 4 y un tema agregado.
Se agregaron mensajes de carga del modelo para tortuga.
RVC reactui fijo.
Hyperparámetros refactorizados.
Gestión agregada a la lista de extensiones, extensión XTTS-simple.

5 de agosto:

Arregle la corteza en React UI, agregue la duración de la generación máxima.
Cambiar el directorio de modelos de extensión AudioCraft Plus a ./data/models/audiocraft_plus/
Mejore la descarga de modelos para MusicGen y Audiogen. Agregue el botón Modelos de descarga a MusicGen y Audiogen.
Agregue Huggingface Cache Manager Extension.

4 de agosto:

Agregue la extensión XTTS-RVC-UI, extensión de demostración de ajuste fino XTTS.

3 de agosto:

Agregue la extensión de riffusion, la extensión de Audiocraft MAC, la extensión heredada de corteza.

2 de agosto:

Agregue advertencia de deprecación al instalador antiguo.
Unificar el manejo de errores y simplificar la carga de la pestaña.

1 de agosto:

Agregue el botón "Intente actualizar" para extensiones externas.
Omita los paquetes de reinstalación cuando la versión PIP_Packages no se cambia.
Sincronice el puerto Gradio con React UI.
Cambie el puerto de Gradio predeterminado a 7770 desde 7860.

Julio de 2024

Haga clic para expandir

31 de julio:

Arregle la MusicGen de React UI después de que cambie el Gradio.
Agregue el botón Descargar para susurrar la extensión.

29 de julio:

Cambie FFMPEG a 4.4.2 de Conda-Forge para admitir más plataformas, incluida Mac M1.
Desactivar Tortoise CVVP.

26 de julio:

Extensión de susurro
Soporte experimental de instalación de AMD ROCM. (Solo Linux)

25 de julio:

Agregue scripts de diagnóstico para MacOS y Linux.
Agregue mejores detalles de error para las pestañas.
Corrección de permisos de ejecución de script .SH para los instaladores en Linux y MacOS.

21 de julio:

Agregar extensión del historial de la galería (adaptado de la antigua vista de la galería)
Convertir el remixer simple en extensión
SEGURAR UNATY.py para usar las versiones de antorcha más nuevas (Update.py es solo para fines heredados y probablemente se romperá)
Agregue la secuencia de comandos de diagnóstico y forje los scripts de reinstalación para Windows.

20 de julio:

FIJO LINK DE DISCORD ANICIÓN
Simplifique aún más la corteza, eliminando la complejidad excesiva en el código.
Agregue la interfaz de usuario/extensiones modulares, estas extensiones permiten instalar nuevos modelos y características a la interfaz de usuario. En el futuro, los modelos comenzarán como extensiones antes de agregarse de manera permanente.
Desactivar la vista de la galería en salidas
Problema conocido: Firefox falla al mostrar salidas en Gradio, falla al obtenerlas del backend. Dentro de React UI esto funciona bien.

15 de julio:

Comentario: como la interfaz de usuario React ha estado fuera durante mucho tiempo, Gradio UI tendrá el papel de servir solo las funciones al usuario, sin la interfaz de usuario extremadamente complicada que no puede manejar. Hay una verdadera escasez de tiempo de desarrollo para agregar nuevos modelos y características, pero el antiguo estilo de integración no era viable. Como se define el nuevo API y el 'El papel del modelo', será posible tener extensiones para modelos completos, lo que permite mucha más flexibilidad e instalaciones más ligeras.
Comience a escalar la complejidad de la interfaz de usuario de Gradio: eliminado los botones RVC/Demucs/Voice . (Eliminar el componente interno Joutai).
Agregue versión.json para mejores actualizaciones en el futuro.
Reduzca el número máximo de salidas de Gradio Bark a 1.
Agregue el botón Modelo de descarga a la tortuga, también descargue el modelo antes de cargar el siguiente/Cambio de parámetros, por lo que Tortoise ya no usa la memoria del modelo 2X durante el cambio de configuración.

14 de julio:

REPROUPACIÓN PARCES DEL PROCESO EN GRUPOS: texto a discurso, conversión de audio, generación de música, salidas y configuraciones
Limpie el encabezado, agregue el enlace para recibir comentarios
Agregar control de semillas al audio estable
Corrige el error de nombre de archivo de audio estable con NewLines
Desactivar la pestaña "Remixer simple" Gradio
Fix Bark Voice Clone y RVC una vez más
Agregar pestaña "PAQUETES INSTALADOS" para la depuración

13 de julio:

Actualización importante a Torch 2.3.1 y Xformers 0.0.27
- Todos los usuarios, incluidos Mac y CPU, ahora tendrán la misma versión de Pytorch.
Actualizar CUDA a 11.8
Obligar a Python a ser 3.10.11
Modifique el instalador para permitir la actualización de Python y la antorcha sin reinstalarse (actualmente la versión principal 2)
Fijar parámetros predeterminados de magnet para una mejor calidad
Mejorar las verificaciones de script del instalador para evitar errores
Actualizar styletts2

11 de julio:

Mejorar los nombres de archivo de generación de audio estable
Agregue la reinstalación de la fuerza a la reparación de la antorcha
Haga que el instalador se actualice automáticamente antes de ejecutar

9 de julio:

¡Arregle las nuevas instrucciones de instalación e instalación gracias a https://github.com/xeraster!

8 de julio:

Cambie el proceso de instalación para reducir los enfrentamientos de paquetes y habilitar la flexibilidad de la versión de antorcha.

6 de julio:

Lanzamiento inicial del nuevo instalador basado en Mamba.
Guardar resultados de audio estables en la carpeta salidas-rvc/stableaudio.
Agregue un descargo de responsabilidad a la selección del modelo de audio estable y muestre mejores mensajes de error cuando faltan archivos.

1 de julio:

Optimizar el uso estable de la memoria de audio después de la generación.
Abra React UI automáticamente solo si Gradio también se abre automáticamente.
Retire la reinstalación innecesaria de condimentidad de condimentidad.
Actualización del último audio estable que tiene soporte de MPS (requiere versiones de antorcha más nuevas).

Junio de 2024

Haga clic para expandir

22 de junio: * Agregar audio estable a Gradio.

21 de junio:

Agregue la demostración de Vall-EX para reaccionar UI.
Abra React UI automáticamente en el navegador, solucione el enlace nuevamente.
Agregue división por longitud para reaccionar/tortuga.
Arregle las carpetas de demostración UVR5.
Establezca la versión Fairseq en 0.12.2 para Linux y Mac. (#323)
Mejorar el historial de generación para todas las pestañas React UI.

17 de mayo:

Arregle los preajustes de tortuga en React UI.

9 de mayo:

Agregue MMS para reaccionar UI.
Mejorar React UI y CodeBase.

4 de mayo:

Group ChangeLog por mes

Abril de 2024

Haga clic para expandir

28 de abril: * Agregue Maha Tts para reaccionar UI. * Agregue información de GPU para reaccionar UI.

6 de abril:

Agregue la pestaña de demostración de generación Vall-EX.
Agregar pestaña de demostración de MMS.
Agregue la pestaña de demostración de Maha TTS.
Agregue la pestaña de demostración de Styletts2.

5 de abril:

Corrige el error de instalación de RVC.
Agregue la pestaña de demostración básica de UVR5.

4 de abril:

Actualice RVC para incluir RVMPE y FCPE. Elimine la entrada de archivo directo para modelos e índices debido a la duplicación de archivos. Mejorar la interfaz React UI para RVC.

Marzo de 2024

Haga clic para expandir

28 de marzo:

Pestaña de información de GPU

27 de marzo:

Agregue información sobre la clonación de voz al clon de voz de TAB

26 de marzo:

Agregar cuaderno de demostración de Maha TTS

22 de marzo:

Vall-E X Demo a través del cuaderno (#292)
Agregar React UI a Docker Image
Agregar descargo de responsabilidad de instalar

16 de marzo:

Actualizar VOCOS a 0.1.0

14 de marzo:

Cuaderno de demostración de styletts2

13 de marzo:

Agregue la tubería experimental (Bark / Tortoise / MusicGen / Audiogen / Magnet -> RVC / Demucs / Vocos) (#287)
Solucione el error RVC con la recarga del modelo en cada generación. Para entradas cortas que resulta en una aceleración visible.

11 de marzo:

Agregue reproducir como audio y guarde a las voces para ladrar (#286)
Cambie UX para mostrar que los archivos se eliminan de los favoritos
Arreglar imágenes para voces de corteza que no se muestran
Arreglar la reproducción de audio en favoritos

10 de marzo:

Agregue un lote para reaccionar Magnet UI (#283)
Agregue la traducción de audio a audio a SeamlessM4t (#284)

5 de marzo:

Agregue un lote para reaccionar UI MusicGen (#281), gracias a https://github.com/aamir3d por solicitar esto y proporcionar comentarios

3 de marzo:

Agregar demostración de MMS como cuaderno
Agregar descargo de responsabilidad de VRAM MultibandDiffusion High

Febrero de 2024

Haga clic para expandir

21 de febrero:

Corrige las compilaciones de contenedores de Docker y un error con Docker-Audiocraft

8 de febrero:

Fix MultibandDiffusion para los modelos estéreo de MusicGen, gracias https://github.com/mykeehu
Corrección de los pasos de instalación de Node.js en Google Colab, código por https://github.com/miaohf

6 de febrero:

Agregar extensión de generación de archivos FLAC por https://github.com/joachip

Enero de 2024

Haga clic para expandir

21 de enero:

Agregue el script de reparación automática CPU/M1 de antorcha con cada actualización. Para deshabilitar, edite check_cuda.py y cambie force_no_repair = true

16 de enero:

Actualice MusicGen, agregando soporte para modelos estéreo y de melodía grandes
Agregar imán

15 de enero:

Actualizado de Gradio a 3.48.0
- Han aparecido varios errores visuales, si son críticos, repórtelos o degrade a Gradio.
- Gradio: suprimir advertencias inútiles
Advertencias de supresión de tritón
Gradio-Bark: corrige el comportamiento de la última generación como historia ", la selección vacía ya no es errores
Mejorar la pantalla del cargador de extensiones
Actualizar transformadores a 4.36.1 desde 4.31.0
Agregar demostración sin costurasm4t

14 de enero:

React UI: corrige los errores de directorio faltantes

13 de enero:

React UI: arregla el paso de compilación de NPM que falta desde la instalación automática

12 de enero:

React UI: arreglar los nombres para las acciones de audio
Gradio: arreglan múltiples advertencias de API
Integración: React UI ahora se lanza junto con Gradio, con un enlace para abrirlo

11 de enero:

React UI: haga que la compilación funcione sin ningún error

9 de enero:

React Ui
- Handler FIX 404 para Wavesurfer
- Pestañas de corteza de grupo juntos

8 de enero:

Liberar React UI

2023

Haga clic para expandir

Octubre de 2023

26 de octubre:

Mejorar la selección de modelos UX para MusicGen

24 de octubre:

Agregue React UI inicial para MusicGen y Demucs (#202)
FIJE DRIFICIDO DE SEMILLA DE GENERACIÓN LARGA (gracias a https://github.com/520pig520)

Septiembre de 2023

21 de septiembre:

Corteza: agregar continúa como botón de historia semántica
Cambie a Github Docker Image Storage, nueva imagen de Docker:
- docker pull ghcr.io/rsxdalv/tts-generation-webui:main
Opción de corrección de server_port en la configuración #168, gracias a https://github.com/DartVauder

9 de septiembre:

FIJA LINE DE COMANDO XDG-OPEN, gracias a https://github.com/jfronny
Arregle las generaciones de corteza de múltiples líneas, gracias a https://github.com/slack-t y https://github.com/bkutasi
Agregue el botón Modelo de descarga para ladrar según lo solicitado por https://github.com/aamir3d
Agregue detalles de corteza a readme_bark.md según lo solicite https://github.com/maki9009
Agregue "opcional" para grabar en pedido, gracias a https://github.com/maki9009

5 de septiembre:

Agregar mezcla de voz a la corteza
Agregue la quemadura de V1 en el aviso a la corteza (la quemadura en las indicaciones es para dirigir el modelo semántico sin pasar tiempo en generar el audio. El V1 funciona generando los tokens semánticos y luego usarlo como un aviso para el modelo semántico).
Agregar limitador de longitud de generación para ladrar

Agosto de 2023

27 de agosto:

Fix MusicGen ignorando la melodía #153

26 de agosto:

Agregar envío a RVC, Demucs, Botones Vocos a ladrar y voces

24 de agosto:

Agregue la fecha a las salidas RVC para corregir #147
Arreglar la rueda faltante de los seguros
Agregar el botón Enviar al botón Demucs a MusicGen

21 de agosto:

Agregue la instalación de Vision TorchVision a Colab para MusicGen Problem Fix
Eliminar el registro de archivos rvc_tab

20 de agosto:

FIJA MBD reinstalando Hydra-Core al final de una actualización

18 de agosto:

CI: Agregue una acción de GitHub para publicar automáticamente la imagen de Docker.

16 de agosto:

Agregar "nombre" a los parámetros de generación de tortuga

15 de agosto:

PIN de la antorcha a 2.0.0 en todos los requisitos. Archivos TXT
Audiocraft y versiones de corteza
Eliminar la solución de los transformadores de tortuga de Colab
Actualizar tortuga a 2.8.0

13 de agosto:

Potencialmente una gran solución para las nuevas instalaciones de usuarios que tuvieron problemas con la GPU no fue compatible con

11 de agosto:

Tortoise Hotfix gracias a Manmay-Nakhashi
Agregar opción de tortuga para cambiar tokenizer

8 de agosto:

Actualizar audiocraft, mejorando el rendimiento de la múltiple difusión
Corrección del parámetro de tortuga 'cond_free' desajuste con 'ultra_fast' preset

7 de agosto:

Agregue Tortoise Deepeed Fix a Colab

6 de agosto:

Arreglar el error de Audiogen + MBD, agregar Tortoise Fix para Colab

4 de agosto:

Agregue la opción MultibandDiffusion a MusicGen #109
MusicGen/Audiogen Guard tokens en la generación como archivos .npz.

3 de agosto:

Agregar audiogen #105

2 de agosto:

Arreglar las ubicaciones de los modelos que no se muestran después de reiniciar

Julio de 2023

26 de julio:

Galería de voz
Cultivo de voz
Corrige el error de cambio de voz, cambiar el nombre de la imagen, agregue un cuadro de texto hash
Descarga más fácil de voces (#98)

24 de julio:

Cambiar el formato de archivo de corteza para incluir el historial hash: ... continuo_generación ... -> ... from_3ea0d063 ...

23 de julio:

Imagen Docker gracias a https://github.com/jonfairbanks
Mejoras de nombres de ui RVC

21 de julio:

Fix Hubert no trabajando solo con CPU (#87)
Agregue la demostración de Google Colab (#88)
Nuevas ubicaciones de pestaña y modelo de configuración (para usuarios avanzados) (#90)

19 de julio:

Agregar optimizaciones de tortuga, gracias https://github.com/manmay-nakhashi #79 (Implementos #18)

16 de julio:

Demostración de foto de voz
Agregue un directorio para almacenar modelos/índices RVC en y un menú desplegable
RVC en solución no respeta a IS_HALF por CPU #74
Modelo de tortuga y mejoras de selección de voz #73

10 de julio:

Demo #67

9 de julio:

RVC Demo + Tortoise, instalador V6 con script de actualización e intentos automáticos para instalar módulos adicionales #66

5 de julio:

Instalador V5 mejorado: más rápido y más confiable #63

2 de julio:

Actualizar la configuración de la corteza #59

1 de julio:

Estudio-Tab #58

Junio de 2023

29 de junio:

Tortuga NUEVOS PARAMS #54

27 de junio:

Corrige errores de carga ansiosos, Refactor #50

20 de junio

Tortuga: archivos de generación de formularios largos apropiados #46

19 de junio

Tortoise-Upgrade #45

18 de junio:

Actualización de Audiocraft más nuevo, agregue generaciones más largas

14 de junio:

Agregar pestaña Vocos Wav #42

5 de junio:

El botón de arreglar "Guardar a favoritos" en la página de generación de corteza, limpiar la consola (v4.1.1)
Agregue la pestaña "Collections" para administrar varios conjuntos de datos diferentes y más fácil.

4 de junio:

Actualización de V4.1 - Función hash mejorada, mejoras de código

3 de junio:

Actualización de V4: nueva estructura de salida, vista de historial mejorada, reorganización de la base de código, metadatos mejorados, soporte de extensiones de salida

Mayo de 2023

21 de mayo:

Actualización de V3 - Demo de clones de voz

17 de mayo:

ACTUALIZACIÓN A V2 - Genere resultados A medida que parezcan, vista previa de las generaciones rápidas largas por pie

16 de mayo:

Agregue la pestaña Configuración de Gradio, solucione los errores de Gradio en la consola, mejore el registro.
Actualizar el historial y los favoritos con los botones "Usar AS Voice" y "Save Voice"
Pestaña Agregar voces
Pestaña de corteza: eliminar "o usar la última generación como historial"
Mejorar la organización del código

13 de mayo:

Habilite la generación determinista y mejore los registros generados. Créditos a Suno-AI/Bark#175.

10 de mayo:

Habilite la posibilidad de reutilizar las indicaciones de la historia de las generaciones anteriores. Guarde las generaciones como archivos NPZ. Agregue un método conveniente para reutilizar cualquiera de las últimas 3 generaciones para las siguientes indicaciones. Agregue un botón para guardar y recopilar indicaciones de historial debajo /Voces. #10

4 de mayo:

Generación de formularios largos (créditos a https://github.com/suno-ai/bark/blob/main/notebooks/long_form_generation.ipynb y Suno-Ai/Bark#161)
Adaptarse al error VAR de ENV correcto

3 de mayo:

UI mejorada de tortuga: configuración de voz, preajuste y CVVP, así como la capacidad de generar 3 resultados (#6)

2 de mayo:

Se agregó soporte para la recolección del historial para continuar las indicaciones más largas manualmente
Soporte agregado para las indicaciones de V2

Antes:

Soporte agregado para Tortoise TTS

Actualización (para instalaciones antiguas)

En caso de problemas, no dude en contactar a los desarrolladores .

Haga clic para expandir

Actualización de V6 a un nuevo instalador

Recomendado: Instalación fresca

Descargue la nueva versión y ejecute START_TTS_WEBUI.BAT (Windows) o Start_tts_webui.sh (MacOS, Linux)
Una vez que esté terminado, cierre el servidor.
Recomendado: Copie las generaciones antiguas al nuevo directorio, como favoritos/ salidas/ salidas-rvc/ modelos/ colecciones/ config.json
Con precaución: puede copiar todo el nuevo directorio TTS-Generation-Webui sobre el anterior, pero puede haber algunos archivos antiguos que se pierden.

Actualización en el lugar, puede eliminar algunos archivos, ajustes

Actualizar la instalación existente utilizando el script de plataforma update_
Después de que la actualización ejecute el nuevo inicio_tts_webui.bat (Windows) o Start_tts_webui.sh (macOS, Linux) dentro del directorio TTS-Generation-Webui
Una vez que se inicia el servidor, verifique si funciona.
Con precaución: si el nuevo servidor funciona, dentro del directorio de un solo clic para instalar, elimine los antiguos instaladores_files.

¿Hay alguna forma más óptima de hacer esto?

No exactamente, el choque de dependencias, especialmente entre Conda y Python (y las dependencias ya están en un estado crítico, trasladarlas a CondA está muy lejos). Por lo tanto, si bien es posible reemplazar el antiguo instalador con el nuevo y ejecutar la actualización, los problemas son impredecibles y no se pueden hacer . Hacer una actualización para el instalador requiere muchas pruebas para que no se realice a la ligera.

Instalación

Descargue la última versión y extraiga.
Ejecute Start_tts_webui.bat o start_tts_webui.sh para iniciar el servidor. Le pedirá que seleccione la GPU/chip que está utilizando. Una vez que todo se haya instalado, iniciará el servidor Gradio en http: // localhost: 7770 y la interfaz de usuario react en http: // localhost: 3000.
El registro de salida estará disponible en el archivo instalador_scripts/output.log.

Instalación manual (no recomendada)

Es posible que estas instrucciones no reflejen todas las últimas correcciones y ajustes, pero podrían ser útiles como referencia para depurar o comprender lo que hace el instalador. Esperemos que puedan ser una base para apoyar nuevas plataformas, como AMD/Intel.
Instale conda (https://docs.conda.io/projects/conda/en/latest/user-guide/install/index.html)
- (Windows) Instale las herramientas de compilación de Visual Studio/Visual Studio https://visualstudio.microsoft.com/visual-cpp-build-tools/
Configurar un entorno: conda create -n venv
Instalar git, node.js conda install -y -c conda-forge git python=3.10.11 conda-forge::nodejs=22.9.0 conda pip==23.3.2 conda-forge::uv=0.4.17 conda-forge::vswhere
a) Continúe con el script del instalador
- Active el entorno: conda activate venv y
- (venv) node installer_scriptsinit_app.js
- Luego ejecute el servidor con (venv) python server.py
b) o instalar los requisitos manualmente
- Configure Pytorch con CUDA o CPU (https://pytorch.org/audio/stable/build.windows.html#install-pytorch):
  - (venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch=2.3.1 torchvision torchaudio cpuonly -c pytorch para CPU/Mac
  - (venv) conda install -y -k conda-forge::uv=0.4.17 conda-forge::vswhere conda-forge::postgresql=16.4 conda-forge::nodejs=22.9.0 conda-forge::ffmpeg=4.4.2[build=lgpl*] pytorch[version=2.3.1,build=py3.10_cuda11.8*] pytorch-cuda=11.8 torchvision torchaudio cuda-toolkit ninja -c pytorch -c nvidia/label/cuda-11.8.0 -c nvidia para CUDA
- Clon the Repo: git clone https://github.com/rsxdalv/tts-generation-webui.git
- Instale los requisitos:
  - Instale todos los requisitos*.txt (esta lista podría no estar actualizada, consulte https://github.com/rsxdalv/tts-generation-webui/blob/main/dockerfile#l39-l40):
    - (venv) pip install -r requirements.txt
    - (venv) pip install -r requirements_audiocraft.txt
    - (venv) pip install -r requirements_bark_hubert_quantizer.txt
    - (venv) pip install -r requirements_rvc.txt
    - (venv) pip install hydra-core==1.3.2
    - (venv) pip install -r requirements_styletts2.txt
    - (venv) pip install -r requirements_vall_e.txt
    - (venv) pip install -r requirements_maha_tts.txt
    - (venv) pip install -r requirements_stable_audio.txt
    - (venv) pip install soundfile==0.12.1
    - (venv) pip install nvidia-ml-py
  - Construya la aplicación React: (venv) cd react-ui && npm install && npm run build
- (Opcional) Configurar la base de datos: (venv) node installer_scripts/js/applyDatabaseConfig.js
- Ejecute el servidor: (venv) python server.py

React Ui

Instale NodeJS (si aún no está instalado con conda)
Instalar Dependencias React: npm install
Build React: npm run build
Reaccionar: npm start
Ejecute también el servidor Python: python server.py o con script start_tts_webui

Configuración de Docker

TTS-Generation-Webui también se puede ejecutar dentro de un contenedor Docker. Para comenzar, extraiga la imagen del registro de contenedores de GitHub:

 docker pull ghcr.io/rsxdalv/tts-generation-webui:main

Una vez que se ha extraído la imagen, se puede iniciar con Docker Compose:

 docker compose up -d

El contenedor tomará algún tiempo generar la primera salida, mientras que los modelos se descargan en segundo plano. El estado de esta descarga se puede verificar verificando los registros de contenedores:

 docker logs tts-generation-webui

Construyendo la imagen usted mismo

Si desea construir su propio contenedor Docker, puede usar el DockerFile incluido:

 docker build -t tts-generation-webui .

Tenga en cuenta que el Docker-Compose debe editarse para usar la imagen que acaba de construir.

Voces adicionales para corteza, muestras rápidas

Punto de venta

Directorio de altavoces de corteza

Lectme de corteza

Readme_bark.md

Información sobre la gestión de modelos, cachés y espacio de sistema para proyectos de IA

#186 (respuesta en el hilo)

Bibliotecas de código abierto

Este proyecto utiliza las siguientes bibliotecas de código abierto:

Suno -AI/Bark - Licencia del MIT
- Descripción: Código de inferencia para el modelo de corteza.
- Repositorio: Suno/Bark
Tortoise-TTS -Licencia Apache-2.0
- Descripción: Una biblioteca de síntesis flexible de texto a voz para varias plataformas.
- Repositorio: neonbjb/tortoise-tts
FFMPEG - Licencia LGPL
- Descripción: Una solución completa y multiplataforma para el procesamiento de video y audio.
- Repositorio: FFMPEG
- Uso: codificación de archivos Vorbis OGG
FFMPEG -PYTHON - Licencia Apache 2.0
- Descripción: Python Bindings para la biblioteca FFMPEG para manejar archivos multimedia.
- Repositorio: Kkroening/Ffmpeg-Python
Audiocraft - Licencia del MIT
- Descripción: Una biblioteca para la generación de audio y MusicGen.
- Repositorio: FacebookResearch/Audiocraft
Vocos - Licencia MIT
- Descripción: un decodificador mejorado para muestras de codec
- Repositorio: Charactr-Platform/Vocos
RVC - Licencia MIT
- Descripción: Un marco de conversión de voz fácil de usar basado en VITS.
- Repositorio: RVC-Project/Recuperal-Voice-Conversion-Webui

Uso ético y responsable

Esta tecnología está destinada a habilitar y creatividad, no para daños.

Al comprometerse con este modelo de IA, usted reconoce y acepta cumplir con estas pautas, empleando el modelo de IA de manera responsable, ética y legal.

Intención no maliciosa: no use este modelo de IA para actividades maliciosas, dañinas o ilegales. Solo debe usarse para fines legales y éticos que promuevan el compromiso positivo, el intercambio de conocimientos y las conversaciones constructivas.
Sin suplantación: no use este modelo de IA para hacerse pasar por sí mismo o tergiversar a sí mismo como otra persona, incluidas individuos, organizaciones o entidades. No debe usarse para engañar, defraudar o manipular a los demás.
No hay actividades fraudulentas: este modelo de IA no debe usarse para fines fraudulentos, como estafas financieras, intentos de phishing o cualquier forma de prácticas engañosas destinadas a adquirir información confidencial, ganancia monetaria o acceso no autorizado a los sistemas.
Cumplimiento legal: Asegúrese de que su uso de este modelo de IA cumpla con las leyes, regulaciones y políticas aplicables con respecto al uso de la IA, la protección de datos, la privacidad, la propiedad intelectual y cualquier otra obligación legal relevante en su jurisdicción.
Reconocimiento: al comprometerse con este modelo de IA, usted reconoce y acepta cumplir con estas pautas, utilizando el modelo de IA de manera responsable, ética y legal.

Licencia

Base de código y dependencias

La base de código tiene licencia bajo MIT. Sin embargo, es importante tener en cuenta que al instalar las dependencias, también estará sujeto a sus respectivas licencias. Aunque la mayoría de estas licencias son permisivas, puede haber algunas que no lo son. Por lo tanto, es esencial comprender que la licencia permisiva solo se aplica a la base de código misma, no al proyecto completo.

Dicho esto, el objetivo es mantener la compatibilidad del MIT durante todo el proyecto. Si se encuentra con una dependencia que no es compatible con la licencia del MIT, no dude en abrir un problema y llamarla.

Dependencias no predominales conocidas:

Biblioteca	Licencia	Notas
encodeco	CC BY-NC 4.0	Las versiones más nuevas son MIT, pero deben instalarse manualmente
diffq	CC BY-NC 4.0	Opcional en el futuro, no necesario para ejecutar, se puede desinstalar, debe actualizarse con DemUCS
cojera	Licencia GPL	Las versiones futuras lo convertirán en LGPL, pero deben instalarse manualmente
unidecode	Licencia GPL	No es la misión crítica, se puede reemplazar con otra biblioteca, problema: neonbjb/tortoise-tts#494

Pesas de modelos

Los pesos del modelo tienen diferentes licencias, preste atención a la licencia del modelo que está utilizando.

Lo más notable:

Corteza: MIT
Tortoise: Desconocido (Apache-2.0 según el repositorio, pero no hay archivo de licencia en Huggingface)
MusicGen: CC BY-NC 4.0
Audiogen: CC BY-NC 4.0

Compatibilidad / errores

AudioCraft actualmente solo es compatible con Linux y Windows. El soporte de MacOS todavía no ha llegado, aunque podría ser posible instalar manualmente.

Reinstalado la antorcha

Debido a las limitaciones de Python Package Manager (PIP), la antorcha puede reinstalarse varias veces. Este es un problema amplio de PIP y Torch.

Mensajes rojos en la consola

Estos mensajes:

 ---- requires ----, but you have ---- which is incompatible.

Son completamente normales. Es una limitación de PIP y porque esta interfaz de usuario web combina muchos proyectos de IA diferentes juntos. Dado que los proyectos no siempre son compatibles entre sí, se quejarán de los otros proyectos que se están instalando. Esto es normal y esperado. Y al final, a pesar de las advertencias/errores, los proyectos funcionarán juntos. No está claro si esta situación alguna vez será resolutable, pero esa es la esperanza.

Expandir

Información adicional