Geely Automobile의 지능형 음성 분야의 새로운 혁신: 자체 개발한 대형 모델이 업계 벤치마크를 능가함

저자：Eve Cole 업데이트 시간：2024-12-01 20:40:01

Geely Automobile은 음성 합성 분야에서 획기적인 발전을 이루었습니다. 자체 개발한 HAM-TTS 대형 모델 "Xingrui"는 성능 면에서 업계 벤치마크인 VALL-E를 능가하며 폭넓은 주목을 받았습니다. 다운코드 편집자는 이 기술의 핵심 이점과 향후 영향에 대해 자세히 설명할 것입니다.

지리자동차는 최근 음성합성 분야에서 획기적인 발전을 이루었다. 자체 개발한 HAM-TTS 대형 모델의 성능이 업계 벤치마크인 VALL-E를 뛰어넘어 업계의 폭넓은 관심을 받고 있다. Xingrui라는 이름의 이 대형 AI 모델은 발음 정확도, 자연스러움, 화자 유사성과 같은 주요 지표에서 상당한 개선을 달성했습니다.

HAM-TTS 모델은 토큰 기반의 제로 샘플 텍스트 음성 변환 계층적 음향 모델링 기술을 사용하여 스마트 조종석에서 사용자 상호 작용 경험을 크게 향상시킵니다. 동일한 4억 개의 매개변수 조건에서 HAM-TTS 모델의 문자 오류율은 VALL-E에 비해 1.5% 감소했으며, 8억 개의 매개변수가 있는 전체 모델에서는 문자 오류율이 2.3% 감소했습니다. 스타일 일관성, 음조 일관성 및 전체 점수 측면에서 HAM-TTS 모델은 10%의 상당한 향상을 달성했습니다.

Xingrui 모델의 장점은 성능 지표에 반영될 뿐만 아니라 실용성도 인상적입니다. 아바타 연동, 음성 내비게이션, 뉴스 방송 등 다양한 시나리오에서 화자의 음성 안정성을 유지할 수 있으며, 상황에 따라 톤, 억양, 일시 중지, 감정을 지능적으로 조정할 수 있습니다. 더욱 주목할 만한 점은 이 모델이 사투리, 외국어 등 다양한 언어 간을 원활하게 전환할 수 있으며, 업계에서 일반적으로 요구되는 10초 이상의 시간보다 단 3초의 샘플 입력만으로 사운드 재생을 완료할 수 있다는 점입니다.

Geely 팀은 계층형 음향 모델링을 도입하여 모델 성능을 혁신적으로 개선했습니다. 그들은 부정확한 발음 문제를 해결하고 잠재 공간 가변 서열 예측기와 텍스트 정렬기를 도입하여 텍스트와 소리의 매칭을 보다 정확하게 만들어 합성된 음성을 보다 자연스럽고 매끄럽게 만들었습니다.

이러한 획기적인 발전은 지능형 기술에 대한 Geely의 R&D 강점을 보여줄 뿐만 아니라 AI 분야에 대한 Geely의 야망도 반영합니다. Geely의 Xingrui AI 대형 모델 시스템은 다중 모드 대형 모델, 언어 대형 모델 등 다방향으로 확장되어 스마트 자동차 기술의 기반을 마련했습니다. 동시에 Geely의 전체 클라우드 컴퓨팅 성능도 지난해 81페타플롭스/초에서 102페타플롭스/초로 증가해 지속적인 기술 투자를 입증했습니다.

전기화의 초기 성공과 함께 Geely의 지능 분야에서의 혁신은 자동차 산업의 미래 발전을 위한 새로운 아이디어와 가능성을 제공했습니다. 이는 전통적인 자동차 제조업체에 대한 우리의 이해를 재정의할 뿐만 아니라 지능이 미래 자동차 산업의 핵심 경쟁 영역이 될 것임을 나타냅니다.

논문 주소: https://arxiv.org/pdf/2403.05989

Geely의 "Xing Rui"의 성공은 인공 지능 분야에서 중국 자동차 산업의 부상을 의미하며, 그 기술 혁신은 미래 자동차의 지능적 발전 방향에 중대한 영향을 미칠 것입니다. 인공지능 분야에서 Geely의 더 많은 혁신을 기대합니다!