El modelo de generación de voz CosyVoice del Laboratorio Alibaba Tongyi se ha actualizado a la versión 2.0

Autor：Eve Cole Fecha de actualización：2024-12-19 08:32:01

El equipo de voz de Alibaba Tongyi Lab lanzó CosyVoice 2.0. Este gran modelo de generación de voz de código abierto ha logrado un avance significativo en la tecnología de síntesis de voz. En comparación con la versión de la generación anterior, CosyVoice 2.0 ha mejorado enormemente la precisión, la estabilidad y la naturalidad, ha realizado una síntesis de voz en streaming bidireccional y ha reducido significativamente el retraso de la síntesis. Esta actualización no solo se refleja en el nivel técnico, sino que también trae un salto cualitativo en la experiencia del usuario, brindándoles servicios de síntesis de voz más ricos y convenientes.

El equipo de voz de Alibaba Tongyi Lab anunció que su gran modelo de generación de voz de código abierto, CosyVoice, se actualizó a la versión 2.0. Esta actualización marca una mejora significativa en la precisión, estabilidad y experiencia natural de la tecnología de generación de voz. CosyVoice2.0 adopta tecnología de modelo grande de generación de voz que integra modelado de transmisión y fuera de línea para lograr una síntesis de voz de transmisión bidireccional. El retraso de la síntesis del primer paquete puede alcanzar los 150 ms, lo que mejora significativamente la velocidad de respuesta de la síntesis de voz.

微信截图_20241216105354.png

En términos de precisión de pronunciación, CosyVoice2.0 tiene una reducción de la tasa de error del 30% al 50% en comparación con la versión anterior. Ha logrado la tasa de error de palabras más baja en el conjunto de pruebas difíciles del conjunto de pruebas Seed-TTS, especialmente en lengua sintética. tornados, Excelente interpretación en caracteres polifónicos y caracteres raros. Además, la versión 2.0 mantiene la coherencia del timbre en la generación de voz de muestra cero y la síntesis de voz entre idiomas. En particular, la capacidad de síntesis de voz entre idiomas se ha mejorado significativamente en comparación con la versión 1.0.

CosyVoice2.0 también ha mejorado el ritmo, la calidad del sonido y la combinación emocional del audio sintetizado. La puntuación de la evaluación MOS ha aumentado de 5,4 a 5,53, lo que se acerca a la puntuación de un gran modelo comercial de síntesis de voz. Al mismo tiempo, la versión 2.0 admite un control de emociones más detallado y un control de dialectos y acentos, lo que brinda a los usuarios opciones de idioma más ricas, incluidos los dialectos principales como el cantonés, el dialecto de Sichuan, el dialecto de Zhengzhou, el dialecto de Tianjin y el dialecto de Changsha, así como funciones. -Funciones de juego como imitar robots, discurso al estilo de Peppa Pig, etc.

La actualización de CosyVoice2.0 no sólo mejora la experiencia y la tecnología de síntesis de voz, sino que también promueve aún más el desarrollo de la comunidad de código abierto y anima a más desarrolladores a participar en la innovación y aplicación de la tecnología de procesamiento de voz.

Repositorio de GitHub: CosyVoice (https://github.com/FunAudioLLM/CosyVoice) Consulte la última actualización de CosyVoice2

Experimente la DEMOSTRACIÓN en línea: https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

Código fuente abierto: https://github.com/FunAudioLLM/CosyVoice

Modelo de código abierto: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

El código abierto de CosyVoice 2.0 promoverá aún más la popularización y el desarrollo de la tecnología de síntesis de voz, proporcionará a los desarrolladores e investigadores herramientas y recursos poderosos y esperará el surgimiento de aplicaciones más innovadoras. Bienvenido a visitar el enlace proporcionado para experimentar y descargar.