Modelo de voz grande SpeechGPT-Gen: parámetros 8B, generación de voz de muestra cero

Autor：Eve Cole Fecha de actualización：2025-02-01 00:16:01

Recientemente, investigadores de la Universidad de Fudan lograron un gran avance y lanzaron con éxito un nuevo modelo de lenguaje de voz a gran escala, SpeechGPT-Gen. El modelo tiene un tamaño de parámetros de 8 mil millones y tiene un rendimiento excelente en los campos de conversión de texto a voz, conversión de voz y diálogo de voz. Su alta eficiencia proviene del innovador método de generación de cadena de información. Esta investigación marca un nuevo hito en el desarrollo de la tecnología de inteligencia artificial de voz y proporciona un sólido soporte técnico para aplicaciones más inteligentes en el futuro.

Webmaster Home informó que investigadores de la Universidad de Fudan lanzaron SpeechGPT-Gen, un modelo de lenguaje de voz a gran escala con parámetros 8B con alta eficiencia en el modelado de información semántica y perceptiva. El modelo demuestra un excelente rendimiento y escalabilidad en múltiples aplicaciones, como conversión de texto a voz, conversión de voz y diálogo de voz. El método de Cadena de Generación de Información (CoIG) se adopta para resolver el problema de ineficiencia en los métodos tradicionales de generación de voz. Además, el modelo utiliza información semántica a priori en la coincidencia de flujos, lo que mejora la eficiencia y la calidad de los resultados del modelo.

La aparición del modelo SpeechGPT-Gen marca un progreso significativo en la tecnología de inteligencia artificial del habla. Su alta eficiencia y escalabilidad brindan la posibilidad de más escenarios de aplicación en el futuro. Vale la pena esperar su mayor aplicación y desarrollo en varios campos. Creo que surgirán resultados de investigación más sorprendentes.