이 리포지토리는 실시간으로 작동하는 보코더를 사용하여 화자 검증에서 다중 화자 텍스트 음성 변환(SV2TTS)으로의 전이 학습을 구현한 것입니다. 이것이 내 석사 논문이었습니다.
SV2TTS는 세 단계로 구성된 딥 러닝 프레임워크입니다. 첫 번째 단계에서는 몇 초의 오디오에서 음성의 디지털 표현을 만듭니다. 두 번째 및 세 번째 단계에서 이 표현은 임의의 텍스트가 제공된 음성을 생성하기 위한 참조로 사용됩니다.
비디오 데모 (사진 클릭):
URL | 지정 | 제목 | 구현 소스 |
---|---|---|---|
1806.04558 | SV2TTS | 화자 검증에서 다중 화자 텍스트 음성 변환 합성으로 학습 전이 | 이 저장소 |
1802.08435 | WaveRNN(보코더) | 효율적인 신경 오디오 합성 | 패코드/WaveRNN |
1703.10135 | 타코트론(신디사이저) | Tacotron: 엔드투엔드 음성 합성을 향하여 | 패코드/WaveRNN |
1710.10467 | GE2E(인코더) | 화자 검증을 위한 일반화된 종단 간 손실 | 이 저장소 |
Deep Learning의 다른 모든 것과 마찬가지로 이 저장소도 빠르게 오래되었습니다. 많은 SaaS 앱(종종 유료)은 이 저장소보다 더 나은 오디오 품질을 제공합니다. 높은 음성 품질을 갖춘 오픈 소스 솔루션을 원하는 경우:
venv
사용하여 가상 환경을 설정하는 것이 좋지만 이는 선택 사항입니다.pip install -r requirements.txt
사용하여 나머지 요구 사항을 설치합니다.이제 사전 훈련된 모델이 자동으로 다운로드됩니다. 그래도 문제가 해결되지 않으면 여기에서 수동으로 다운로드할 수 있습니다.
데이터 세트를 다운로드하기 전에 다음을 사용하여 구성 테스트를 시작할 수 있습니다.
python demo_cli.py
모든 테스트를 통과하면 이제 출발할 수 있습니다.
툴박스만 가지고 놀려면 LibriSpeech/train-clean-100
다운로드만 권장합니다. 콘텐츠를
으로 추출합니다. 여기서
는 선택한 디렉터리입니다. 도구 상자에서는 다른 데이터세트도 지원됩니다. 여기를 참조하세요. 데이터 세트를 무료로 다운로드하지 않아도 되지만, 오디오 파일로 자신만의 데이터가 필요하거나 도구 상자를 사용하여 녹음해야 합니다.
그런 다음 도구 상자를 사용해 볼 수 있습니다.
python demo_toolbox.py -d
또는
python demo_toolbox.py
데이터 세트를 다운로드했는지 여부에 따라 다릅니다. X-server를 실행 중이거나 Aborted (core dumped)
오류가 발생하는 경우 이 문제를 참조하세요.