Inglês | 简体中文 | Português | 日本語 | 한국어
Esta base de código e todos os modelos são lançados sob a licença CC-BY-NC-SA-4.0. Consulte LICENÇA para obter mais detalhes.
Zero-shot e Few-shot TTS: Insira uma amostra vocal de 10 a 30 segundos para gerar uma saída TTS de alta qualidade. Para obter diretrizes detalhadas, consulte Práticas recomendadas para clonagem de voz.
Suporte multilíngue e multilíngue: basta copiar e colar o texto multilíngue na caixa de entrada - não há necessidade de se preocupar com o idioma. Atualmente oferece suporte a inglês, japonês, coreano, chinês, francês, alemão, árabe e espanhol.
Sem dependência de fonema: o modelo possui fortes capacidades de generalização e não depende de fonemas para TTS. Ele pode lidar com texto em qualquer script de idioma.
Altamente preciso: atinge um CER (taxa de erro de personagem) e WER (taxa de erro de palavra) baixos de cerca de 2% para textos em inglês de 5 minutos.
Rápido: com aceleração fish-tech, o fator de tempo real é de aproximadamente 1:5 em um laptop Nvidia RTX 4060 e 1:15 em um Nvidia RTX 4090.
Inferência WebUI: apresenta uma interface de usuário da web baseada em Gradio, fácil de usar, compatível com Chrome, Firefox, Edge e outros navegadores.
Inferência GUI: Oferece uma interface gráfica PyQt6 que funciona perfeitamente com o servidor API. Suporta Linux, Windows e macOS. Consulte GUI.
Fácil implantação: configure facilmente um servidor de inferência com suporte nativo para Linux, Windows e MacOS, minimizando a perda de velocidade.
Não nos responsabilizamos por qualquer uso ilegal da base de código. Consulte as leis locais sobre DMCA e outras leis relacionadas.
Áudio de peixe
inferência.ipynb
Inglês
中文
日本語
Português (Brasil)
Inglês
中文
日本語
Português (Brasil)
VITS2 (daniilrobnikov)
Bert-VITS2
VITS GPT
MQTTS
GPT rápido
GPT-SoVITS
Patrocinador de processamento de dados da 6Block
Fish Audio é servido em Lepton.AI