data_driven_ai_voice_cloning
1.0.0
이 저장소는 데이터 과학 및 엔지니어링 분야의 석사 논문의 주요 부분을 구현한 것입니다. 이는 두 부분으로 나누어져 있습니다:
- 모델: ECAPA-TDNN, wavlm 시리즈
- 데이터: VoxCeleb1, 비공개 데이터세트
- 모델: FastSpeech2(Microsoft 구현)
- 데이터: LibriTTS
그런 다음 이 두 부분이 통합되어 약 5초의 오디오부터 시작하여 보이지 않는 음성을 복제할 수 있는 다중 스피커 텍스트 음성 변환 모델인 ZeroShotFastSpeech2 모델을 구현합니다.