Alibaba Tongyi Laboratory의 음성 생성 모델 CosyVoice가 버전 2.0으로 업그레이드되었습니다.

저자：Eve Cole 업데이트 시간：2024-12-19 08:32:01

Alibaba Tongyi Lab의 음성 팀은 CosyVoice 2.0을 출시했습니다. 이 대규모 오픈 소스 음성 생성 모델은 음성 합성 기술에 획기적인 발전을 이루었습니다. 이전 세대 버전과 비교하여 CosyVoice 2.0은 정확성, 안정성 및 자연스러움이 크게 향상되었으며 양방향 스트리밍 음성 합성을 실현했으며 합성 지연을 크게 줄였습니다. 이번 업그레이드는 기술적 수준뿐만 아니라 사용자 경험의 질적 도약을 가져와 사용자에게 더욱 풍부하고 편리한 음성 합성 서비스를 제공합니다.

Alibaba Tongyi Lab의 음성 팀은 대규모 오픈 소스 음성 생성 모델인 CosyVoice가 버전 2.0으로 업그레이드되었다고 발표했습니다. 이번 업그레이드는 음성 생성 기술의 정확성, 안정성 및 자연스러운 경험이 크게 향상되었음을 의미합니다. CosyVoice2.0은 양방향 스트리밍 음성 합성을 달성하기 위해 오프라인과 스트리밍 모델링을 통합하는 음성 생성 대형 모델 기술을 채택하여 첫 번째 패킷 합성 지연이 150ms에 도달할 수 있어 음성 합성의 응답 속도가 크게 향상됩니다.

微信截图_20241216105354.png

발음 정확도 측면에서 CosyVoice2.0은 이전 버전에 비해 오류율이 30%~50% 감소했으며, 특히 합성 혀에서 Seed-TTS 테스트 세트의 하드 테스트 세트에서 가장 낮은 단어 오류율을 달성했습니다. 트위스터, 다성 캐릭터 및 희귀 캐릭터에서 탁월한 성능을 발휘합니다. 또한 버전 2.0은 제로 샘플 음성 생성 및 교차 언어 음성 합성에서 음색 일관성을 유지합니다. 특히, 버전 1.0에 비해 교차 언어 음성 합성 기능이 크게 향상되었습니다.

CosyVoice2.0은 합성 오디오의 리듬, 음질, 감성 매칭도 향상시켰습니다. MOS 평가 점수는 5.4에서 5.53으로 높아졌으며 이는 대형 상용 음성 합성 모델의 점수에 가깝습니다. 동시에 버전 2.0은 보다 세밀한 감정 제어 및 사투리 악센트 제어를 지원하여 사용자에게 광둥어, 쓰촨성 방언, 정저우 방언, 천진 방언 및 창사 방언과 같은 주요 방언을 포함하여 더 풍부한 언어 선택을 제공합니다. 로봇 흉내내기, 페파피그 스타일의 연설 등의 연주 기능

CosyVoice2.0의 업그레이드는 음성 합성 기술과 경험을 향상시킬 뿐만 아니라 오픈 소스 커뮤니티의 발전을 더욱 촉진하고 더 많은 개발자가 음성 처리 기술의 혁신과 적용에 참여하도록 장려합니다.

GitHub 저장소: CosyVoice(https://github.com/FunAudioLLM/CosyVoice) 최신 업데이트된 CosyVoice2를 확인하세요.

온라인 데모 체험: https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

오픈 소스 코드: https://github.com/FunAudioLLM/CosyVoice

오픈 소스 모델: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

CosyVoice 2.0의 오픈 소스는 음성 합성 기술의 대중화와 개발을 더욱 촉진하고 개발자와 연구자들에게 강력한 도구와 리소스를 제공하며 보다 혁신적인 애플리케이션의 출현을 기대합니다. 경험하고 다운로드하려면 제공된 링크를 방문해 주셔서 감사합니다.