NaturalSpeech2

생활 서비스

v1.0

리소스 없음

naturalspeech2 github. 최근 Microsoft는 새로운 대형 모델인 NaturalSpeech2를 출시할 것이라고 발표했습니다. 이전 대형 모델과 비교하여 NaturalSpeech2 음성 재구성은 "더 정확하고" "읽기에 집착하지" 않으며 사용자에게 더 나은 경험과 서비스를 제공할 수 있습니다. .

naturalspeech2 소개

Microsoft는 최근 NaturalSpeech2라는 음성 모델을 출시했습니다. 이 모델은 "잠재적 확산" 설계를 채택했으며 제로 샘플 음성 합성 수준에서 탁월한 결과를 제공합니다. 사용자는 고품질의 다양한 음성 합성 경험을 누릴 수 있습니다.

Microsoft는 NaturalSpeech2의 일련의 시연을 통해 제로 샘플 상황에서 다양한 화자 ID, 운율 및 스타일(예: 노래)을 사용하여 음성을 생성하는 능력을 시연했습니다.

기존의 음성-텍스트(TTS) 시스템과 달리 Microsoft의 NaturalSpeech2는 음성을 표현하기 위해 "이산 마커" 대신 "연속 벡터"를 사용하여 보다 완전한 음성 세그먼트를 생성하고 "스틱 읽기"를 생성하지 않는 것으로 보고되었습니다. 감정이 없다". (한마디로 말하기)" 현상.

실험 결과에 따르면 제로 샘플 조건에서 NaturalSpeech2에 의해 생성된 음성은 음성 프롬프트 및 실제 음성의 운율과 거의 일치하며 LibriTTS 및 VCTK 테스트 세트의 자연성(CMOS로 측정)은 실제 음성과 구별할 수 없는 것으로 나타났습니다.

이 프로젝트의 논문은 현재 GitHub에 게시되어 있습니다.