Relatórios do editor de downcodes: Oute AI lançou recentemente seu novo método de síntese de texto para fala - OuteTTS-0.1-350M. Este modelo TTS baseado na arquitetura LLaMa, com sua arquitetura simples e eficiente WavTokenizer, alcança síntese de voz de alta qualidade sem a necessidade de adaptadores externos. Além de possuir recursos de clonagem de voz sem amostra, também é compatível com llama.cpp, tornando-o ideal para aplicativos em tempo real. O lançamento do OuteTTS-0.1-350M traz, sem dúvida, novos avanços para o desenvolvimento da tecnologia de conversão de texto em fala.
Recentemente, Oute AI lançou um novo método de síntese de texto para fala chamado OuteTTS-0.1-350M. Essa abordagem aproveita a modelagem em linguagem pura sem a necessidade de adaptadores externos ou arquiteturas complexas, proporcionando uma abordagem simplificada ao TTS. OuteTTS-0.1-350M é baseado na arquitetura LLaMa e utiliza WavTokenizer para gerar tokens de áudio diretamente, tornando o processo mais eficiente.
O modelo possui clonagem de voz com amostra zero, que requer apenas alguns segundos de áudio de referência para replicar uma nova voz. O OuteTTS-0.1-350M foi projetado para desempenho de dispositivos e é compatível com llama.cpp, tornando-o ideal para aplicações em tempo real. Embora o modelo tenha um tamanho de parâmetro relativamente pequeno (350 milhões), seu desempenho é comparável a sistemas TTS maiores e mais complexos.
A acessibilidade e eficiência do OuteTTS-0.1-350M o tornam adequado para uma ampla gama de aplicações, incluindo assistentes personalizados, audiolivros e localização de conteúdo. Oute AI é lançado sob licença CC-BY, o que incentiva mais experimentação e integração em diferentes projetos, democratizando a tecnologia TTS avançada.
O lançamento do OuteTTS-0.1-350M marca um passo importante na tecnologia de conversão de texto em fala, aproveitando uma arquitetura simplificada para fornecer síntese de fala de alta qualidade com requisitos computacionais mínimos. Ele integra a arquitetura LLaMa, usa WavTokenizer e é capaz de realizar clonagem de fala de amostra zero sem adaptadores complexos, o que o diferencia dos modelos TTS tradicionais.
Endereço: https://www.outeai.com/blog/OuteTTS-0.1-350M
Resumindo, OuteTTS-0.1-350M traz novas possibilidades para o campo da conversão de texto em fala com sua eficiência, simplicidade e acessibilidade, e vale a pena aguardar seu desempenho em aplicações futuras. O editor de Downcodes continuará atento ao posterior desenvolvimento deste modelo.