영어 | 简体中文 | 일본어
현재 출시되는 모델은 제로샷 음성변환을 지원하나요? , 제로샷 실시간 음성 변환 및 제로샷 노래하는 음성 변환 . 별도의 교육 없이도 1~30초의 참조 음성이 주어지면 음성을 복제할 수 있습니다.
이전 음성 변환 모델과의 데모 및 비교 목록을 찾으려면 데모 페이지를 방문하십시오.
우리는 계속해서 모델 품질을 개선하고 더 많은 기능을 추가하고 있습니다.
우리는 Seed-VC의 음성 변환 기능에 대해 일련의 객관적인 평가를 수행했습니다. 재생의 용이성을 위해 소스 오디오는 LibriTTS-test-clean의 무작위 발화 100개이며 참조 오디오는 고유한 특성을 지닌 무작위로 선택된 12개의 실제 음성입니다.
소스 오디오는 ./examples/libritts-test-clean
에서 찾을 수 있습니다.
참조 오디오는 ./examples/reference
에서 찾을 수 있습니다.
우리는 화자 임베딩 코사인 유사성(SECS), 단어 오류율(WER) 및 문자 오류율(CER) 측면에서 변환 결과를 평가하고 두 가지 강력한 오픈 소스 기준인 OpenVoice 및 CosyVoice와 결과를 비교했습니다.
아래 표의 결과는 우리의 Seed-VC 모델이 명료도와 화자 유사성 모두에서 기본 모델보다 훨씬 뛰어난 성능을 보여줍니다.
모델메트릭스 | 초↑ | WER↓ | CER↓ | 시그↑ | 박↑ | OVRL↑ |
---|---|---|---|---|---|---|
지상 진실 | 1.0000 | 8.02 | 1.57 | ~ | ~ | ~ |
오픈보이스 | 0.7547 | 15.46 | 4.73 | 3.56 | 4.02 | 3.27 |
코지보이스 | 0.8440 | 18.98 | 7.29 | 3.51 | 4.02 | 3.21 |
Seed-VC(당사) | 0.8676 | 11.99 | 2.92 | 3.42 | 3.97 | 3.11 |
또한 여러 스피커에 대한 non-zero-shot 음성 변환 모델을 비교했습니다(모델 가용성 기준).
캐릭터 | 모델메트릭스 | 초↑ | WER↓ | CER↓ | 시그↑ | 박↑ | OVRL↑ |
---|---|---|---|---|---|---|---|
~ | 지상 진실 | 1.0000 | 6.43 | 1.00 | ~ | ~ | ~ |
토카이 테이오 | So-VITS-4.0 | 0.8637 | 21.46 | 9.63 | 3.06 | 3.66 | 2.68 |
Seed-VC(당사) | 0.8899 | 15.32 | 4.66 | 3.12 | 3.71 | 2.72 | |
밀키 그린 | So-VITS-4.0 | 0.6850 | 48.43 | 32시 50분 | 3.34 | 3.51 | 2.82 |
Seed-VC(당사) | 0.8072 | 7.26 | 1.32 | 3.48 | 4.07 | 3.20 | |
마티카네 탄후아세르 | So-VITS-4.0 | 0.8594 | 16.25 | 8.64 | 3.25 | 3.71 | 2.84 |
Seed-VC(당사) | 0.8768 | 12.62 | 5.86 | 3.18 | 3.83 | 2.85 |
결과는 대상 스피커에 대한 교육을 받지 않았음에도 불구하고 Seed-VC가 제로 샷이 아닌 모델보다 훨씬 더 나은 결과를 얻을 수 있음을 보여줍니다. 그러나 이는 SoVITS 모델의 품질에 따라 많이 달라질 수 있습니다. 이 비교가 불공평하거나 부정확하다고 생각되면 PR 또는 Issue를 환영합니다.
(zomehwh/sovits-tannhauser의 Tokai Teio 모델)
(zomehwh/sovits-tannhauser의 Matikane Tannhuaser 모델)
(sparanoid/milky-green-sovits-4의 밀키 그린 모델)
facebook/hubert-large-ls960-ft 모델로 계산된 영어 ASR 결과
유사 모델로 계산된 스피커 임베딩
eval.py
스크립트를 실행하여 평가를 재현할 수 있습니다.
파이썬 평가.py --source ./examples/libritts-test-clean --target ./examples/reference --output ./examples/eval/converted --확산 단계 25 --길이 조정 1.0 --inference-cfg-rate 0.7 --xVector-extractor "resemblyzer"--baseline "" # 기준 결과를 계산하기 위해 openvoice 또는 cosyvoice를 입력합니다.--max-samples 100 # 처리할 최대 소스 발화 수
그 전에 기준 평가를 실행하려면 ../OpenVoice/
및 ../CosyVoice/
에 openvoice 및 cosyvoice 저장소가 올바르게 설치되어 있는지 확인하세요.
추가 노래 음성 변환 평가는 M4Singer 데이터 세트에서 수행되며 여기에서 오디오 데이터를 사용할 수 있는 4개의 대상 화자가 있습니다.
화자 유사성은 변환 결과와 각 문자 데이터세트에서 사용 가능한 모든 샘플 간의 코사인 유사성을 평균하여 계산됩니다.
각 캐릭터에 대해 하나의 무작위 발언이 제로샷 추론을 위한 프롬프트로 선택됩니다. 비교를 위해 각 캐릭터에 대해 각각의 RVCv2-f0-48k 모델을 기준으로 훈련했습니다.
각 가수 유형에 대한 100개의 무작위 발화가 소스 오디오로 사용됩니다.
모델메트릭스 | F0CORR↑ | F0RMSE↓ | 초↑ | CER↓ | 시그↑ | 박↑ | OVRL↑ |
---|---|---|---|---|---|---|---|
RVCv2 | 0.9404 | 30.43 | 0.7264 | 28.46 | 3.41 | 4.05 | 3.12 |
Seed-VC(당사) | 0.9375 | 33.35 | 0.7405 | 19.70 | 3.39 | 3.96 | 3.06 |
소스 가수 유형 | 캐릭터 | 모델메트릭스 | F0CORR↑ | F0RMSE↓ | 초↑ | CER↓ | 시그↑ | 박↑ | OVRL↑ |
---|---|---|---|---|---|---|---|---|---|
알토(여) | ~ | 지상 진실 | 1.0000 | 0.00 | ~ | 8.16 | ~ | ~ | ~ |
아즈마(여) | RVCv2 | 0.9617 | 33.03 | 0.7352 | 24.70 | 3.36 | 4.07 | 3.07 | |
Seed-VC(당사) | 0.9658 | 31.64 | 0.7341 | 15.23 | 3.37 | 4.02 | 3.07 | ||
다이애나(여) | RVCv2 | 0.9626 | 32.56 | 0.7212 | 19.67 | 3.45 | 4.08 | 3.17 | |
Seed-VC(당사) | 0.9648 | 31.94 | 0.7457 | 16.81 | 3.49 | 3.99 | 3.15 | ||
딩젠(남) | RVCv2 | 0.9013 | 26.72 | 0.7221 | 18.53 | 3.37 | 4.03 | 3.06 | |
Seed-VC(당사) | 0.9356 | 21.87 | 0.7513 | 15.63 | 3.44 | 3.94 | 3.09 | ||
코비 브라이언트(남) | RVCv2 | 0.9215 | 23.90 | 0.7495 | 37.23 | 3.49 | 4.06 | 3.21 | |
Seed-VC(당사) | 0.9248 | 23.40 | 0.7602 | 26.98 | 3.43 | 4.02 | 3.13 | ||
배스(남) | ~ | 지상 진실 | 1.0000 | 0.00 | ~ | 8.62 | ~ | ~ | ~ |
아즈마 | RVCv2 | 0.9288 | 32.62 | 0.7148 | 24.88 | 3.45 | 4.10 | 3.18 | |
Seed-VC(당사) | 0.9383 | 31.57 | 0.6960 | 10.31 | 3.45 | 4.03 | 3.15 | ||
다이아나 | RVCv2 | 0.9403 | 30.00 | 0.7010 | 14.54 | 3.53 | 4.15 | 3.27 | |
Seed-VC(당사) | 0.9428 | 6월 30일 | 0.7299 | 9.66 | 3.53 | 4.11 | 3.25 | ||
딩 젠 | RVCv2 | 0.9061 | 19.53 | 0.6922 | 25.99 | 3.36 | 4.09 | 3.08 | |
Seed-VC(당사) | 0.9169 | 18.15 | 0.7260 | 14.13 | 3.38 | 3.98 | 3.07 | ||
코비 브라이언트 | RVCv2 | 0.9302 | 16.37 | 0.7717 | 41.04 | 3.51 | 4.13 | 3.25 | |
Seed-VC(당사) | 0.9176 | 17.93 | 0.7798 | 24.23 | 3.42 | 4.08 | 3.17 | ||
소프라노(여) | ~ | 지상 진실 | 1.0000 | 0.00 | ~ | 27.92 | ~ | ~ | ~ |
아즈마 | RVCv2 | 0.9742 | 47.80 | 0.7104 | 38.70 | 3.14 | 3.85 | 2.83 | |
Seed-VC(당사) | 0.9521 | 64.00 | 0.7177 | 10월 33일 | 3.15 | 3.86 | 2.81 | ||
다이아나 | RVCv2 | 0.9754 | 46.59 | 0.7319 | 32.36 | 3.14 | 3.85 | 2.83 | |
Seed-VC(당사) | 0.9573 | 59.70 | 0.7317 | 30.57 | 3.11 | 3.78 | 2.74 | ||
딩 젠 | RVCv2 | 0.9543 | 31시 45분 | 0.6792 | 40.80 | 3.41 | 4.08 | 3.14 | |
Seed-VC(당사) | 0.9486 | 33.37 | 0.6979 | 34.45 | 3.41 | 3.97 | 3.10 | ||
코비 브라이언트 | RVCv2 | 0.9691 | 25시 50분 | 0.6276 | 61.59 | 3.43 | 4.04 | 3.15 | |
Seed-VC(당사) | 0.9496 | 32.76 | 0.6683 | 39.82 | 3.32 | 3.98 | 3.04 | ||
테너(남) | ~ | 지상 진실 | 1.0000 | 0.00 | ~ | 5.94 | ~ | ~ | ~ |
아즈마 | RVCv2 | 0.9333 | 42.09 | 0.7832 | 16.66 | 3.46 | 4.07 | 3.18 | |
Seed-VC(당사) | 0.9162 | 48.06 | 0.7697 | 8.48 | 3.38 | 3.89 | 3.01 | ||
다이아나 | RVCv2 | 0.9467 | 36.65 | 0.7729 | 15.28 | 3.53 | 4.08 | 3.24 | |
Seed-VC(당사) | 0.9360 | 41.49 | 0.7920 | 8.55 | 3.49 | 3.93 | 3.13 | ||
딩 젠 | RVCv2 | 0.9197 | 22.82 | 0.7591 | 12.92 | 3.40 | 4.02 | 3.09 | |
Seed-VC(당사) | 0.9247 | 22.77 | 0.7721 | 13.95 | 3.45 | 3.82 | 3.05 | ||
코비 브라이언트 | RVCv2 | 0.9415 | 19.33 | 0.7507 | 30.52 | 3.48 | 4.02 | 3.19 | |
Seed-VC(당사) | 0.9082 | 24.86 | 0.7764 | 13.35 | 3.39 | 3.93 | 3.07 |
Seed-VC는 대상 화자에 대해 훈련되지 않았으며 프롬프트로 단 하나의 무작위 발화만 사용되었음에도 불구하고 화자 유사성(SECS) 및 명료성(CER) 측면에서 화자별 RVCv2 모델보다 지속적으로 뛰어난 성능을 보여 탁월한 음성을 보여줍니다. Seed-VC의 복제 기능과 견고성.
그러나 Seed-VC의 오디오 품질(DNSMOS)은 RVCv2보다 약간 낮은 것으로 관찰됩니다. 우리는 이 단점을 심각하게 받아들이고 앞으로 오디오 품질을 개선하기 위해 높은 우선순위를 부여할 것입니다.
이 비교가 불공평하거나 부정확하다고 생각되면 PR이나 이슈를 환영합니다.
SenseVoiceSmall에서 계산한 중국어 ASR 결과
유사 모델로 계산된 스피커 임베딩
남성에서 여성으로의 변환에는 +12 반음 피치 시프트를 설정하고 여성에서 남성으로의 변환에는 -12 반음을 설정하고, 그렇지 않으면 0 피치 시프트를 설정합니다.
Windows 또는 Linux에서는 Python 3.10을 권장합니다.
pip 설치 -r 요구사항.txt
추론을 처음 실행할 때 최신 모델 릴리스의 체크포인트가 자동으로 다운로드됩니다.
명령줄 추론:
python inference.py --source <source-wav>--target <referene-wav>--output <output-dir>--diffusion-steps 25 # 노래하는 목소리 변환에는 50~100을 권장합니다--length-adjust 1.0 --inference-cfg-rate 0.7 --f0-condition False # 노래하는 목소리 변환을 위해 True로 설정--auto-f0-adjust False # 소스 피치를 목표 피치 레벨로 자동 조정하려면 True로 설정, 일반적으로 노래하는 목소리 변환에는 사용되지 않음--semi-tone-shift 0 # 노래하는 목소리 변환을 위한 반음 단위의 피치 이동
어디:
source
참조 음성으로 변환할 음성 파일의 경로입니다.
target
음성 참조로 사용되는 음성 파일의 경로입니다.
output
출력 디렉터리의 경로입니다.
diffusion-steps
사용할 확산 단계 수입니다. 기본값은 25입니다. 최상의 품질을 위해서는 50-100을 사용하고, 가장 빠른 추론을 위해서는 4-10을 사용합니다.
length-adjust
길이 조정 요소입니다. 기본값은 1.0입니다. 빠른 음성의 경우 <1.0으로 설정하고 느린 음성의 경우 >1.0으로 설정합니다.
inference-cfg-rate
출력에 미묘한 차이가 있으며 기본값은 0.7입니다.
f0-condition
은 출력 피치를 소스 오디오의 피치로 조절하는 플래그입니다. 기본값은 False이며 노래 음성 변환을 위해 True로 설정됩니다.
auto-f0-adjust
는 소스 피치를 대상 피치 레벨로 자동 조정하는 플래그입니다. 기본값은 False이며 일반적으로 노래 음성 변환에 사용되지 않습니다.
semi-tone-shift
노래하는 음성 변환을 위한 반음 단위의 피치 이동이며 기본값은 0입니다.
Gradio 웹 인터페이스:
파이썬 app.py
그런 다음 브라우저를 열고 http://localhost:7860/
으로 이동하여 웹 인터페이스를 사용하십시오.
실시간 음성 변환 GUI:
파이썬 실시간-gui.py
중요: 실시간 음성 변환에는 GPU를 사용하는 것이 좋습니다.
일부 성능 테스트는 NVIDIA RTX 3060 노트북 GPU에서 수행되었으며 결과 및 권장 매개변수 설정은 다음과 같습니다.
비고 | 확산 단계 | 추론 CFG 속도 | 최대 프롬프트 길이 | 블록 시간(초) | 크로스페이드 길이(초) | 추가 컨텍스트(왼쪽)(들) | 추가 컨텍스트(오른쪽)(들) | 지연 시간(밀리초) | 품질 | 청크당 추론 시간(ms) |
---|---|---|---|---|---|---|---|---|---|---|
대부분의 목소리에 적합 | 10 | 0.7 | 3.0 | 1.0초 | 0.04초 | 0.5초 | 0.02초 | 2070ms | 중간 | 849ms |
고음의 여성 목소리에 대한 더 나은 성능 | 20 | 0.7 | 3.0 | 2.0초 | 0.04초 | 0.5초 | 0.02초 | 4070ms | 높은 | 1585ms |
오디오 품질 요구 사항이 낮기 때문에 일부 남성 목소리에 적합합니다. | 5 | 0.7 | 3.0 | 0.6초 | 0.04초 | 0.5초 | 0.02초 | 1270ms | 낮은 | 488ms |
inference_cfg_rate를 0.0으로 설정하면 추론 속도가 빨라지지만 성능 저하 여부는 확실하지 않습니다... | 10 | 0.0 | 3.0 | 0.7초 | 0.04초 | 0.5초 | 0.02초 | 1470ms | 중간 | 555ms |
자신의 장치 성능에 따라 GUI의 매개변수를 조정할 수 있으며, 추론 시간이 블록 시간보다 짧은 한 음성 변환 스트림이 잘 작동해야 합니다.
다른 GPU 집약적인 작업(예: 게임, 비디오 시청)을 실행하는 경우 추론 속도가 떨어질 수 있습니다.
일반적으로 품질 저하(확산 모델의 안타까운 특성...?)를 방지하기 위해 지연 시간은 1~2초 정도이지만, 이를 줄이기 위한 방법을 계속 찾고 있습니다.
(GUI 및 오디오 청킹 로직은 RVC에서 수정되었습니다. 뛰어난 구현 덕분입니다!)
릴리스 코드
v0.1 사전 학습된 모델 출시:
허깅페이스 공간 데모:
HTML 데모 페이지(다른 VC 모델과 비교): 데모
스트리밍 추론
스트리밍 추론 지연 시간 단축
실시간 음성 변환 데모 영상
노래 목소리 변환
소스 및 참조 오디오의 소음 복원력
소스 오디오는 소음 복원력입니다.
잠재적인 아키텍처 개선
U-ViT 스타일 건너뛰기 연결
OpenAI Whisper로 입력이 변경되었습니다.
사용자 정의 데이터 교육용 코드
노래하는 목소리 디코딩을 위해 NVIDIA에서 BigVGAN으로 변경
노래 음성 변환을 위한 속삭임 버전 모델
가창변환을 위한 RVC/SoVITS와의 객관적인 평가 및 비교
오디오 품질 향상
더 추가 예정
2024년 10월 28일:
더 나은 오디오 품질로 미세 조정된 44k 노래 음성 변환 모델이 업데이트되었습니다.
2024년 10월 27일:
실시간 음성 변환 GUI 추가
2024년 10월 25일:
노래 음성 변환에 대한 철저한 평가 결과 및 RVCv2와의 비교를 추가했습니다.
2024년 10월 24일:
OpenAI Whisper를 음성 콘텐츠 입력으로 사용하여 44kHz 노래 음성 변환 모델 업데이트
2024-10-07:
v0.3 사전 훈련된 모델 업데이트, 음성 콘텐츠 인코더를 OpenAI Whisper로 변경
v0.3 사전 학습된 모델에 대한 객관적인 평가 결과가 추가되었습니다.
2024-09-22:
NVIDIA의 BigVGAN을 사용하도록 노래 음성 변환 모델을 업데이트하여 고음의 노래 목소리를 크게 개선했습니다.
웹 UI에서 긴 오디오 파일에 대한 청킹 및 스트리밍 출력 지원
2024-09-18:
노래하는 목소리 변환을 위해 업데이트된 f0 조건 모델
2024-09-14:
동일한 품질을 달성하기 위해 더 작은 크기와 더 적은 확산 단계 및 운율 보존을 제어하는 추가 기능을 갖춘 업데이트된 v0.2 사전 훈련된 모델
명령줄 추론 스크립트가 추가되었습니다.
설치 및 사용 지침이 추가되었습니다.