Geely Automobile a réalisé des progrès révolutionnaires dans le domaine de la synthèse vocale. Son grand modèle HAM-TTS « Xingrui », développé de manière indépendante, a dépassé la référence de l'industrie VALL-E en termes de performances, attirant une large attention. L'éditeur de Downcodes expliquera en détail les principaux avantages et l'impact futur de cette technologie.
Geely Automobile a récemment réalisé une percée majeure dans le domaine de la synthèse vocale. Les performances de son grand modèle HAM-TTS développé de manière indépendante ont dépassé la référence de l'industrie VALL-E, attirant une large attention dans l'industrie. Ce grand modèle d'IA nommé Xingrui a réalisé des améliorations significatives dans des indicateurs clés tels que la précision de la prononciation, le naturel et la similarité des locuteurs.
Le modèle HAM-TTS utilise une technologie de modélisation acoustique hiérarchique de synthèse vocale sans échantillon basée sur des jetons, ce qui améliore considérablement l'expérience d'interaction de l'utilisateur dans le cockpit intelligent. Dans les mêmes conditions de 400 millions de paramètres, le taux d'erreur de caractères du modèle HAM-TTS a chuté de 1,5 % par rapport à VALL-E et sur le modèle complet avec 800 millions de paramètres, le taux d'erreur de caractères a chuté de 2,3 % ; En termes de cohérence du style, de cohérence du pitch et de score global, le modèle HAM-TTS a réalisé une amélioration significative de 10 %.
Les avantages du modèle Xingrui ne se reflètent pas seulement dans ses indicateurs de performance, mais son aspect pratique est également impressionnant. Il peut maintenir la stabilité de la voix de l'orateur dans une variété de scénarios tels que la liaison d'avatar, la navigation vocale et les émissions d'informations, et ajuster intelligemment le ton, l'intonation, les pauses et les émotions en fonction de la situation. Ce qui mérite d'être mentionné, c'est que ce modèle peut basculer de manière transparente entre différentes langues, y compris les dialectes et les langues étrangères, et peut compléter la reproduction sonore avec seulement 3 secondes d'entrée d'échantillon, ce qui est bien mieux que les plus de 10 secondes habituellement requises dans l'industrie.
L'équipe Geely a amélioré de manière innovante les performances du modèle en introduisant une modélisation acoustique en couches. Ils ont résolu le problème de la prononciation inexacte et ont introduit des prédicteurs de séquence variable d'espace latent et des aligneurs de texte pour rendre la correspondance du texte et des sons plus précise, rendant la parole synthétisée plus naturelle et plus fluide.
Cette avancée démontre non seulement la force de Geely en matière de R&D dans le domaine des technologies intelligentes, mais reflète également son ambition dans le domaine de l'IA. Le système de grands modèles Xingrui AI de Geely a été étendu à plusieurs directions telles que les grands modèles multimodaux et les grands modèles linguistiques, jetant ainsi les bases de la technologie des voitures intelligentes. Dans le même temps, la puissance totale de cloud computing de Geely a également augmenté, passant de 81 pétaflops/seconde l'année dernière à 102 pétaflops/seconde, démontrant son investissement continu dans la technologie.
Avec le succès initial de l'électrification, la percée de Geely dans le domaine de l'intelligence a fourni de nouvelles idées et possibilités pour le développement futur de l'industrie automobile. Cela redéfinit non seulement notre compréhension des constructeurs automobiles traditionnels, mais indique également que l'intelligence deviendra un domaine de concurrence clé dans la future industrie automobile.
Adresse papier : https://arxiv.org/pdf/2403.05989
Le succès du « Xing Rui » de Geely marque l'essor de l'industrie automobile chinoise dans le domaine de l'intelligence artificielle, et ses avancées technologiques affecteront profondément l'orientation du développement intelligent des automobiles du futur. Nous attendons avec impatience d’autres innovations de Geely dans le domaine de l’intelligence artificielle !