data_driven_ai_voice_cloning 다운로드 - data_driven_ai_voice

한국어

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

다운로드

데이터 기반 AI 음성 복제

이 저장소는 데이터 과학 및 엔지니어링 분야의 석사 논문의 주요 부분을 구현한 것입니다. 이는 두 부분으로 나누어져 있습니다:

모델: ECAPA-TDNN, wavlm 시리즈
데이터: VoxCeleb1, 비공개 데이터세트

모델: FastSpeech2(Microsoft 구현)
데이터: LibriTTS

그런 다음 이 두 부분이 통합되어 약 5초의 오디오부터 시작하여 보이지 않는 음성을 복제할 수 있는 다중 스피커 텍스트 음성 변환 모델인 ZeroShotFastSpeech2 모델을 구현합니다.

확장하다

추가 정보