A Geely Automobile fez um progresso revolucionário no campo da síntese de voz. Seu grande modelo HAM-TTS "Xingrui" desenvolvido de forma independente ultrapassou o benchmark da indústria VALL-E em desempenho, atraindo ampla atenção. O editor de Downcodes explicará detalhadamente as principais vantagens e o impacto futuro desta tecnologia.
Geely Automobile fez recentemente um grande avanço no campo da síntese de voz. O desempenho de seu grande modelo HAM-TTS desenvolvido de forma independente ultrapassou o benchmark da indústria VALL-E, atraindo ampla atenção na indústria. Este grande modelo de IA denominado Xingrui alcançou melhorias significativas em indicadores-chave, como precisão de pronúncia, naturalidade e similaridade de locutor.
O modelo HAM-TTS usa tecnologia de modelagem acústica hierárquica de texto para fala de amostra zero baseada em token, o que melhora muito a experiência de interação do usuário no cockpit inteligente. Nas mesmas condições de 400 milhões de parâmetros, a taxa de erro de caracteres do modelo HAM-TTS caiu 1,5% em comparação com VALL-E e no modelo completo com 800 milhões de parâmetros, a taxa de erro de caracteres caiu 2,3%. Em termos de consistência de estilo, consistência de tom e pontuação geral, o modelo HAM-TTS alcançou uma melhoria significativa de 10%.
As vantagens do modelo Xingrui não se refletem apenas em seus indicadores de desempenho, mas sua praticidade também impressiona. Ele pode manter a estabilidade da voz do locutor em uma variedade de cenários, como ligação de avatar, navegação por voz e transmissões de notícias, e ajustar de forma inteligente o tom, a entonação, as pausas e as emoções de acordo com a situação. O que vale mais a pena mencionar é que este modelo pode alternar perfeitamente entre diferentes idiomas, incluindo dialetos e línguas estrangeiras, e pode completar a reprodução do som com apenas 3 segundos de entrada de amostra, o que é muito melhor do que os mais de 10 segundos normalmente exigidos na indústria.
A equipe da Geely melhorou de forma inovadora o desempenho do modelo, introduzindo modelagem acústica em camadas. Eles resolveram o problema da pronúncia imprecisa e introduziram preditores de sequência variável de espaço latente e alinhadores de texto para tornar a correspondência de texto e sons mais precisa, tornando a fala sintetizada mais natural e suave.
Este avanço não só demonstra a força de I&D da Geely em tecnologia inteligente, mas também reflecte a sua ambição no campo da IA. O sistema de modelos grandes Xingrui AI da Geely foi expandido para múltiplas direções, como modelos grandes multimodais e modelos grandes de linguagem, estabelecendo as bases para a tecnologia de carros inteligentes. Ao mesmo tempo, o poder total de computação em nuvem da Geely também aumentou de 81 petaflops/segundo no ano passado para 102 petaflops/segundo, demonstrando seu investimento contínuo em tecnologia.
Com o sucesso inicial da eletrificação, o avanço da Geely no campo da inteligência proporcionou novas ideias e possibilidades para o desenvolvimento futuro da indústria automóvel. Isto não só redefine a nossa compreensão dos fabricantes de automóveis tradicionais, mas também indica que a inteligência se tornará uma área-chave de competição na futura indústria automobilística.
Endereço do artigo: https://arxiv.org/pdf/2403.05989
O sucesso do "Xing Rui" da Geely marca a ascensão da indústria automobilística da China no campo da inteligência artificial, e seus avanços tecnológicos afetarão profundamente a direção do desenvolvimento inteligente dos automóveis do futuro. Estamos ansiosos por mais inovações da Geely no campo da inteligência artificial!