Clarão! ElevenLabs lança modelo de diálogo de voz em Flash: atraso de apenas 75 milissegundos suporta 32 idiomas

Autor：Eve Cole Data da Última Atualização：2024-12-24 17:48:01

A ElevenLabs lançou um novo modelo de síntese de fala, Flash, que é atualmente a solução de conversão de texto em fala (TTS) mais rápida com sua latência ultrabaixa - apenas 75 milissegundos. Este desenvolvimento inovador é particularmente adequado para aplicações de IA conversacional que requerem interação em tempo real, melhorando significativamente a suavidade e a naturalidade da interação humano-computador. O modelo Flash está disponível em duas versões: Flash v2 (suporta inglês) e Flash v2.5 (suporta 32 idiomas). Os usuários podem experimentá-lo diretamente por meio da plataforma de IA conversacional e API da ElevenLabs. Embora ligeiramente inferior ao modelo Turbo em termos de qualidade sonora e expressão emocional, o Flash esteve claramente à frente em termos de velocidade e saiu vitorioso no teste cego.

O modelo Flash é dividido em duas versões, o Flash v2 suporta apenas inglês e o Flash v2.5 suporta 32 idiomas. Ao usar ambos os modelos, os usuários gastarão 1 ponto para cada dois caracteres gerados. Embora o modelo Flash seja ligeiramente inferior ao modelo Turbo em termos de qualidade de som e profundidade emocional, o seu desempenho de baixa latência permitiu-lhe ultrapassar o resto da sua classe em testes cegos, tornando-o a opção mais rápida da sua classe.

A equipe técnica da ElevenLabs afirmou que o lançamento dos modelos Flash promoverá muito a suavidade e naturalidade da interação humano-computador. Os desenvolvedores podem chamar diretamente os IDs do modelo "eleven_flash_v2" e "eleven_flash_v2_5" por meio da API. Materiais de referência específicos da API podem ser encontrados no site oficial do ElevenLabs. Por meio dessa inovação, a ElevenLabs espera abrir mais cenários de diálogo e interação humanizados e de baixa latência.

A ElevenLabs também fornece uma variedade de produtos e soluções, incluindo assistentes de voz personalizados, ferramentas de produção de áudio e estúdios de dublagem, projetados para ajudar usuários e desenvolvedores em diferentes áreas a obter criação de áudio de IA de alta qualidade. Além disso, a ElevenLabs também conduz ativamente pesquisa e desenvolvimento e continua a melhorar o nível técnico de seus produtos para atender às crescentes necessidades dos usuários.

Destaques:

A latência do modelo Flash para gerar fala é de apenas 75 milissegundos, o que é adequado para assistentes de voz conversacionais de baixa latência.

O Flash v2.5 suporta 32 idiomas e cada dois caracteres gerados pelo usuário custa 1 ponto.

Em testes cegos, o modelo Flash superou outros produtos similares, tornando-se a solução de conversão de texto em fala mais rápida.

Em suma, o modelo Flash da ElevenLabs traz novas possibilidades para aplicações de IA conversacional com sua latência ultrabaixa e suporte multilíngue, e também indica que a interação humano-computador será mais suave e natural no futuro. Sua vantagem em velocidade o torna uma das soluções de conversão de texto em voz líderes do mercado e merece a atenção de desenvolvedores e usuários.