O modelo de geração de fala CosyVoice do Alibaba Tongyi Laboratory foi atualizado para a versão 2.0

Autor：Eve Cole Data da Última Atualização：2024-12-19 08:32:01

A equipe de fala do Alibaba Tongyi Lab lançou o CosyVoice 2.0. Este grande modelo de geração de fala de código aberto fez um avanço significativo na tecnologia de síntese de fala. Em comparação com a versão da geração anterior, o CosyVoice 2.0 melhorou muito a precisão, estabilidade e naturalidade, realizou síntese de voz de streaming bidirecional e reduziu significativamente o atraso de síntese. Esta atualização não se reflete apenas no nível técnico, mas também traz um salto qualitativo na experiência do usuário, proporcionando aos usuários serviços de síntese de voz mais ricos e convenientes.

A equipe de fala do Alibaba Tongyi Lab anunciou que seu grande modelo de geração de fala de código aberto CosyVoice foi atualizado para a versão 2.0. Esta atualização marca uma melhoria significativa na precisão, estabilidade e experiência natural da tecnologia de geração de fala. CosyVoice2.0 adota tecnologia de modelo grande de geração de fala que integra modelagem offline e de streaming para obter síntese de fala de streaming bidirecional. O atraso de síntese do primeiro pacote pode chegar a 150 ms, o que melhora significativamente a velocidade de resposta da síntese de fala.

微信截图_20241216105354.png

Em termos de precisão de pronúncia, CosyVoice2.0 tem uma redução de 30% a 50% na taxa de erro em comparação com a versão anterior. Ele alcançou a menor taxa de erro de palavras no conjunto de testes rígidos do conjunto de testes Seed-TTS, especialmente em língua sintética. twisters, Excelente atuação em personagens polifônicos e personagens raros. Além disso, a versão 2.0 mantém a consistência do timbre na geração de fala de amostra zero e na síntese de fala entre idiomas. Em particular, a capacidade de síntese de fala entre idiomas foi significativamente melhorada em comparação com a versão 1.0.

CosyVoice2.0 também melhorou o ritmo, a qualidade do som e a correspondência emocional do áudio sintetizado. A pontuação de avaliação MOS aumentou de 5,4 para 5,53, que está próxima da pontuação de um grande modelo comercial de síntese de fala. Ao mesmo tempo, a versão 2.0 suporta controle de emoções mais refinado e controle de dialeto e sotaque, fornecendo aos usuários opções de idioma mais ricas, incluindo dialetos principais como cantonês, dialeto de Sichuan, dialeto de Zhengzhou, dialeto de Tianjin e dialeto de Changsha, bem como função -funções de jogo, como imitar robôs, discurso estilo Peppa Pig, etc.

A atualização do CosyVoice2.0 não apenas melhora a tecnologia e a experiência de síntese de fala, mas também promove ainda mais o desenvolvimento da comunidade de código aberto e incentiva mais desenvolvedores a participarem da inovação e aplicação da tecnologia de processamento de fala.

Repositório GitHub: CosyVoice (https://github.com/FunAudioLLM/CosyVoice) Confira o CosyVoice2 atualizado mais recente

Experimente a DEMO online: https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

Código-fonte aberto: https://github.com/FunAudioLLM/CosyVoice

Modelo de código aberto: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

O código aberto do CosyVoice 2.0 promoverá ainda mais a popularização e o desenvolvimento da tecnologia de síntese de voz, fornecerá aos desenvolvedores e pesquisadores ferramentas e recursos poderosos e aguardará com expectativa o surgimento de aplicativos mais inovadores. Bem-vindo a visitar o link fornecido para experimentar e fazer download.