OuteTTS-0.1-350M: un novedoso método de síntesis de texto a voz con clonación de voz de muestra cero

Autor：Eve Cole Fecha de actualización：2024-11-29 14:40:33

Informes del editor de Downcodes: Oute AI lanzó recientemente su nuevo método de síntesis de texto a voz: OuteTTS-0.1-350M. Este modelo TTS basado en la arquitectura LLaMa, con su arquitectura simple y su eficiente WavTokenizer, logra una síntesis de voz de alta calidad sin necesidad de adaptadores externos. No sólo tiene capacidades de clonación de voz de muestra cero, sino que también es compatible con llama.cpp, lo que lo hace ideal para aplicaciones en tiempo real. Sin duda, el lanzamiento de OuteTTS-0.1-350M aporta nuevos avances al desarrollo de la tecnología de conversión de texto a voz.

Recientemente, Oute AI lanzó un novedoso método de síntesis de texto a voz llamado OuteTTS-0.1-350M. Este enfoque aprovecha el modelado de lenguaje puro sin necesidad de adaptadores externos o arquitecturas complejas, lo que proporciona un enfoque simplificado para TTS. OuteTTS-0.1-350M se basa en la arquitectura LLaMa y utiliza WavTokenizer para generar tokens de audio directamente, lo que hace que el proceso sea más eficiente.

El modelo presenta clonación de voz de muestra cero, que requiere solo unos segundos de audio de referencia para replicar una nueva voz. El OuteTTS-0.1-350M está diseñado para el rendimiento del dispositivo y es compatible con llama.cpp, lo que lo hace ideal para aplicaciones en tiempo real. Aunque el modelo tiene un tamaño de parámetros relativamente pequeño (350 millones), su rendimiento es comparable al de sistemas TTS más grandes y complejos.

La accesibilidad y eficiencia del OuteTTS-0.1-350M lo hacen adecuado para una amplia gama de aplicaciones, incluidos asistentes personalizados, audiolibros y localización de contenidos. Oute AI se lanza bajo una licencia CC-BY, lo que fomenta una mayor experimentación e integración en diferentes proyectos, democratizando la tecnología TTS avanzada.

El lanzamiento de OuteTTS-0.1-350M marca un paso clave hacia la tecnología de texto a voz, aprovechando una arquitectura simplificada para ofrecer síntesis de voz de alta calidad con requisitos computacionales mínimos. Integra la arquitectura LLaMa, utiliza WavTokenizer y es capaz de realizar clonación de voz de muestra cero sin adaptadores complejos, lo que lo distingue de los modelos TTS tradicionales.

Dirección: https://www.outeai.com/blog/OuteTTS-0.1-350M

Con todo, OuteTTS-0.1-350M aporta nuevas posibilidades al campo de la conversión de texto a voz con su eficiencia, simplicidad y accesibilidad, y vale la pena esperar su rendimiento en aplicaciones futuras. El editor de Downcodes seguirá atento al desarrollo posterior de este modelo.