Inglés | 简体中文 | portugués | 日本語 | 한국어
Este código base y todos los modelos se publican bajo la licencia CC-BY-NC-SA-4.0. Consulte LICENCIA para obtener más detalles.
TTS de disparo cero y de pocos disparos: ingrese una muestra vocal de 10 a 30 segundos para generar una salida TTS de alta calidad. Para obtener pautas detalladas, consulte Mejores prácticas de clonación de voz.
Soporte multilingüe y multilingüe: simplemente copie y pegue texto multilingüe en el cuadro de entrada; no necesita preocuparse por el idioma. Actualmente admite inglés, japonés, coreano, chino, francés, alemán, árabe y español.
Sin dependencia de fonemas: el modelo tiene fuertes capacidades de generalización y no depende de fonemas para TTS. Puede manejar texto en cualquier idioma de escritura.
Altamente preciso: logra un CER (índice de error de caracteres) y un WER (índice de error de palabra) bajos, de alrededor del 2 % para textos en inglés de 5 minutos.
Rápido: con la aceleración fish-tech, el factor de tiempo real es aproximadamente 1:5 en una computadora portátil Nvidia RTX 4060 y 1:15 en una Nvidia RTX 4090.
Inferencia de WebUI: presenta una interfaz de usuario web fácil de usar basada en Gradio, compatible con Chrome, Firefox, Edge y otros navegadores.
Inferencia GUI: ofrece una interfaz gráfica PyQt6 que funciona perfectamente con el servidor API. Admite Linux, Windows y macOS. Ver GUI.
Fácil de implementar: configure fácilmente un servidor de inferencia con soporte nativo para Linux, Windows y MacOS, minimizando la pérdida de velocidad.
No asumimos ninguna responsabilidad por cualquier uso ilegal del código base. Consulte las leyes locales sobre DMCA y otras leyes relacionadas.
audio de pescado
inferencia.ipynb
Inglés
中文
日本語
Portugués (Brasil)
Inglés
中文
日本語
Portugués (Brasil)
VITS2 (daniilrobnikov)
Bert-VITS2
VITS GPT
MQTTS
GPT rápido
GPT-SoVITS
Patrocinador de procesamiento de datos por 6Block
Fish Audio se sirve en Lepton.AI