Relatórios do editor de downcodes: Equipes de pesquisa da Shanghai Jiao Tong University, da Cambridge University e do Geely Automobile Research Institute lançaram recentemente um novo sistema de conversão de texto em fala (TTS) chamado F5-TTS. O sistema usa um método livre de autorregressão, combinado com correspondência de fluxo e transformador de difusão (DiT), que simplifica efetivamente o processo complexo do modelo TTS tradicional e alcança avanços significativos tanto na qualidade de síntese quanto na velocidade de inferência. Comparado com os modelos TTS tradicionais, o F5-TTS tem um bom desempenho em termos de velocidade de processamento e robustez, trazendo novas possibilidades à tecnologia de síntese de voz.
Recentemente, uma equipe de pesquisa da Universidade Jiao Tong de Xangai, da Universidade de Cambridge e do Geely Automobile Research Institute lançou um novo sistema de conversão de texto em fala (TTS) chamado F5-TTS. O que há de especial neste sistema é que ele usa um método livre de autorregressão que combina correspondência de fluxo com um transformador de difusão (DiT), simplificando com sucesso as etapas complexas do modelo TTS tradicional.
Como todos sabemos, os modelos TTS tradicionais muitas vezes requerem modelagem complexa de duração, alinhamento de fonemas e codificação de texto especializada, o que aumenta a complexidade do processo de síntese. Em particular, os modelos anteriores, como o E2TTS, enfrentam frequentemente problemas como a convergência lenta e o alinhamento impreciso do texto e da fala, o que os torna difíceis de aplicar de forma eficiente em cenários do mundo real. O surgimento do F5-TTS é justamente para resolver esses desafios.
O princípio de funcionamento do F5-TTS é simples. Primeiro, o texto de entrada é processado por meio da arquitetura ConvNeXt para facilitar o alinhamento com a fala. A sequência de caracteres preenchida é então inserida no modelo junto com uma versão ruidosa da fala de entrada.
O treinamento do sistema conta com o Diffusion Transformer (DiT), que mapeia efetivamente uma distribuição inicial simples para a distribuição de dados por meio de correspondência de fluxo. Além disso, o F5-TTS também introduz de forma inovadora a estratégia Sway Sampling durante a inferência, que pode priorizar as etapas iniciais do fluxo na fase de inferência, melhorando assim o alinhamento entre a fala gerada e o texto de entrada.
De acordo com os resultados da pesquisa, o F5-TTS supera muitos sistemas TTS atuais tanto em qualidade de síntese quanto em velocidade de inferência. No conjunto de dados LibriSpeech-PC, o modelo alcançou uma taxa de erro de palavra (WER) de 2,42 e um fator de tempo real (RTF) de 0,15 no tempo de inferência, o que foi significativamente melhor que o modelo de difusão anterior E2TTS, que teve melhor desempenho no processamento velocidade e Existem deficiências na robustez.
Ao mesmo tempo, a estratégia Sway Sampling melhora significativamente a naturalidade e a compreensão da fala gerada, permitindo que o modelo alcance uma geração suave e expressiva sem treinamento.
O F5-TTS melhora a robustez do alinhamento e a qualidade da síntese, simplificando o processo e eliminando a necessidade de previsão de duração, alinhamento de fonemas e codificação de texto explícito. Além disso, os pesquisadores também enfatizaram considerações éticas e propuseram a necessidade de estabelecer marcas d’água e sistemas de detecção para evitar abusos do modelo.
Entrada do projeto: https://github.com/SWivid/F5-TTS
Destaque:
F5-TTS é um novo tipo de sistema de conversão de texto em fala autorregressivo que simplifica a complexidade do modelo TTS tradicional.
O sistema utiliza arquitetura ConvNeXt e DiT para melhorar o alinhamento de texto e fala e melhorar significativamente a qualidade da síntese.
?Os investigadores enfatizaram a necessidade de prestar atenção às questões éticas e sugeriram a introdução de marcas de água e mecanismos de detecção para prevenir potenciais abusos.
O surgimento do sistema F5-TTS trouxe novos avanços à tecnologia de conversão de texto em voz, e espera-se que seu desempenho eficiente e processos simplificados sejam amplamente utilizados em muitos campos. Contudo, as questões éticas também requerem atenção, e a investigação subsequente deve ser dedicada ao estabelecimento de um mecanismo regulador sólido para garantir o desenvolvimento responsável da tecnologia.