Geely Automobile ha logrado grandes avances en el campo de la síntesis de voz. Su modelo grande HAM-TTS "Xingrui", desarrollado de forma independiente, superó el punto de referencia de la industria VALL-E en rendimiento, atrayendo una atención generalizada. El editor de Downcodes explicará en detalle las principales ventajas y el impacto futuro de esta tecnología.
Geely Automobile ha logrado recientemente un gran avance en el campo de la síntesis de voz. El rendimiento de su modelo grande HAM-TTS desarrollado de forma independiente ha superado el punto de referencia de la industria VALL-E, atrayendo una amplia atención en la industria. Este gran modelo de IA llamado Xingrui ha logrado mejoras significativas en indicadores clave como la precisión de la pronunciación, la naturalidad y la similitud de los hablantes.
El modelo HAM-TTS utiliza tecnología de modelado acústico jerárquico de texto a voz de muestra cero basada en tokens, que mejora enormemente la experiencia de interacción del usuario en la cabina inteligente. Bajo las mismas condiciones de 400 millones de parámetros, la tasa de error de caracteres del modelo HAM-TTS se redujo en un 1,5 % en comparación con VALL-E y en el modelo completo con 800 millones de parámetros, la tasa de error de caracteres se redujo en un 2,3 %. En términos de coherencia de estilo, coherencia de tono y puntuación general, el modelo HAM-TTS logró una mejora significativa del 10%.
Las ventajas del modelo Xingrui no sólo se reflejan en sus indicadores de rendimiento, sino que también impresiona su practicidad. Puede mantener la estabilidad de la voz del hablante en una variedad de escenarios, como vinculación de avatar, navegación por voz y transmisiones de noticias, y ajustar de manera inteligente el tono, la entonación, las pausas y las emociones según la situación. Lo que es más digno de mencionar es que este modelo puede cambiar sin problemas entre diferentes idiomas, incluidos dialectos e idiomas extranjeros, y puede completar la reproducción de sonido con solo 3 segundos de entrada de muestra, lo que es mucho mejor que los más de 10 segundos que normalmente se requieren en la industria.
El equipo de Geely mejoró de forma innovadora el rendimiento del modelo mediante la introducción de modelado acústico en capas. Resolvieron el problema de la pronunciación inexacta e introdujeron predictores de secuencia de variables de espacio latente y alineadores de texto para hacer que la coincidencia de texto y sonidos sea más precisa, haciendo que el habla sintetizada sea más natural y fluida.
Este avance no sólo demuestra la fortaleza de Geely en I+D en tecnología inteligente, sino que también refleja su ambición en el campo de la IA. El sistema de modelos grandes Xingrui AI de Geely se ha ampliado a múltiples direcciones, como modelos grandes multimodales y modelos grandes de lenguaje, sentando las bases para la tecnología de automóviles inteligentes. Al mismo tiempo, la potencia total de computación en la nube de Geely también aumentó de 81 petaflops/segundo el año pasado a 102 petaflops/segundo, lo que demuestra su continua inversión en tecnología.
Con el éxito inicial de la electrificación, el avance de Geely en el campo de la inteligencia ha proporcionado nuevas ideas y posibilidades para el desarrollo futuro de la industria del automóvil. Esto no sólo redefine nuestra comprensión de los fabricantes de automóviles tradicionales, sino que también indica que la inteligencia se convertirá en un área clave de competencia en la futura industria del automóvil.
Dirección del artículo: https://arxiv.org/pdf/2403.05989
El éxito del "Xing Rui" de Geely marca el ascenso de la industria automotriz china en el campo de la inteligencia artificial, y sus avances tecnológicos afectarán profundamente la dirección del desarrollo inteligente de los automóviles del futuro. ¡Esperamos más innovaciones de Geely en el campo de la inteligencia artificial!