Descargar fish speech - fish speech Descarga del código fuente

Descargar

Discurso de pez

Inglés | 简体中文 | portugués | 日本語 | 한국어

Este código base y todos los modelos se publican bajo la licencia CC-BY-NC-SA-4.0. Consulte LICENCIA para obtener más detalles.

TTS de disparo cero y de pocos disparos: ingrese una muestra vocal de 10 a 30 segundos para generar una salida TTS de alta calidad. Para obtener pautas detalladas, consulte Mejores prácticas de clonación de voz.
Soporte multilingüe y multilingüe: simplemente copie y pegue texto multilingüe en el cuadro de entrada; no necesita preocuparse por el idioma. Actualmente admite inglés, japonés, coreano, chino, francés, alemán, árabe y español.
Sin dependencia de fonemas: el modelo tiene fuertes capacidades de generalización y no depende de fonemas para TTS. Puede manejar texto en cualquier idioma de escritura.
Altamente preciso: logra un CER (índice de error de caracteres) y un WER (índice de error de palabra) bajos, de alrededor del 2 % para textos en inglés de 5 minutos.
Rápido: con la aceleración fish-tech, el factor de tiempo real es aproximadamente 1:5 en una computadora portátil Nvidia RTX 4060 y 1:15 en una Nvidia RTX 4090.
Inferencia de WebUI: presenta una interfaz de usuario web fácil de usar basada en Gradio, compatible con Chrome, Firefox, Edge y otros navegadores.
Inferencia GUI: ofrece una interfaz gráfica PyQt6 que funciona perfectamente con el servidor API. Admite Linux, Windows y macOS. Ver GUI.
Fácil de implementar: configure fácilmente un servidor de inferencia con soporte nativo para Linux, Windows y MacOS, minimizando la pérdida de velocidad.