VALL EX 다운로드 - VALL EX 소스코드 다운로드

VALL E X

AI 소스 코드

1.0.0

다운로드

VALL-E X: 다국어 텍스트 음성 합성 및 음성 복제 ?

영어 | 중국어
Microsoft VALL-E X 제로샷 TTS 모델의 오픈 소스 구현입니다.
우리는 연구 또는 애플리케이션 사용을 위해 훈련된 모델을 대중에게 공개합니다.

vallex-framework

VALL-E X는 Microsoft가 제안한 놀라운 다국어 TTS(텍스트 음성 변환) 모델입니다. Microsoft는 처음에 연구 논문을 발표했지만 코드나 사전 학습된 모델을 공개하지 않았습니다. 이 기술의 잠재력과 가치를 인식한 우리 팀은 결과를 재현하고 자체 모델을 교육하는 데 도전했습니다. 훈련된 VALL-E X 모델을 커뮤니티와 공유하여 모든 사람이 강력한 차세대 TTS를 경험할 수 있게 되어 기쁘게 생각합니다!

모델에 대한 자세한 내용은 모델 카드에 나와 있습니다.

빠른 색인

업데이트
? 특징
설치
시민
? 용법
❓ 자주 묻는 질문
? TODO

업데이트

2023.09.10

보다 안정적인 생성 결과를 위해 AR 디코더 일괄 디코딩을 추가했습니다.

2023.08.30

EnCodec 디코더를 Vocos 디코더로 교체하여 오디오 품질을 개선했습니다. (@v0xie에게 감사드립니다)

2023.08.23

긴 텍스트 생성이 추가되었습니다.

2023.08.20

중국어 README를 추가했습니다.

2023.08.14

이제 사전 훈련된 VALL-E X 체크포인트가 출시되었습니다. 여기서 다운로드하세요

설치

pip, Python 3.10, CUDA 11.7 ~ 12.0, PyTorch 2.0+로 설치

 git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
pip install -r requirements.txt

참고: 프롬프트를 표시하려면 ffmpeg를 설치하고 해당 폴더를 환경 변수 PATH에 추가해야 합니다.

프로그램을 처음 실행하면 해당 모델이 자동으로 다운로드됩니다.

다운로드가 실패하고 오류가 보고되는 경우 아래 단계에 따라 모델을 수동으로 다운로드하세요.

(폴더의 대문자 사용에 주의하세요)

설치 디렉터리에 checkpoints 폴더가 있는지 확인하세요. 그렇지 않은 경우 설치 디렉터리에 checkpoints 폴더( ./checkpoints/ )를 수동으로 만듭니다.
checkpoints 폴더에 vallex-checkpoint.pt 파일이 있는지 확인하세요. 그렇지 않은 경우 여기에서 vallex-checkpoint.pt 파일을 수동으로 다운로드하여 checkpoints 폴더에 넣으십시오.
설치 디렉터리에 whisper 폴더가 있는지 확인하세요. 그렇지 않은 경우 설치 디렉터리에 whisper 폴더( ./whisper/ )를 수동으로 생성하세요.
whisper 폴더에 medium.pt 파일이 있는지 확인해보세요. 그렇지 않은 경우 여기에서 medium.pt 파일을 수동으로 다운로드하여 whisper 폴더에 넣으십시오.

시민

아직 로컬 머신에 환경을 설정할 준비가 되지 않으셨나요? 괜찮아요! 온라인 데모를 통해 여러분을 도와드리겠습니다. Hugging Face 또는 Google Colab에서 직접 VALL-E X를 시험해 보면서 모델의 기능을 번거로움 없이 경험할 수 있습니다!

? 특징

VALL-E X에는 다음과 같은 최첨단 기능이 포함되어 있습니다.

다국어 TTS : 자연스럽고 표현력이 풍부한 음성 합성을 통해 영어, 중국어, 일본어 3개 국어로 이야기합니다.
제로샷 음성 복제 : 보이지 않는 화자의 짧은 3~10초 녹음을 등록하고 VALL-E X가 자신과 똑같은 맞춤형 고품질 음성을 생성하는 것을 지켜보세요!

예를 참조하세요

프롬프트.webm

출력.webm

음성 감정 제어 : 감정의 힘을 경험해보세요! VALL-E X는 제공된 음향 프롬프트와 동일한 감정으로 음성을 합성하여 오디오에 표현력을 한 단계 더 추가할 수 있습니다.

예를 참조하세요

졸린 프롬프트.mp4

졸린 출력.mp4

제로샷 교차 언어 음성 합성 : 단일 언어 사용자를 언어 여행으로 데려가세요! VALL-E X는 유창함이나 억양을 손상시키지 않고 다른 언어로 개인화된 음성을 생성할 수 있습니다. 아래는 중국어와 영어로 진행되는 일본어 연사 강연입니다. ?? ?

예를 참조하세요

jp-prompt.webm

en-output.webm

zh-output.webm

악센트 제어 : 악센트로 창의력을 발휘해보세요! VALL-E X를 사용하면 중국어를 영어 액센트로 말하거나 그 반대로 말하는 등 다양한 액센트를 실험해 볼 수 있습니다. ??

예를 참조하세요

en-prompt.webm

zh-악센트-output.webm

en-accent-output.webm

음향 환경 유지 : 완벽하게 깨끗한 오디오 프롬프트가 필요하지 않습니다! VALL-E X는 입력의 음향 환경에 적응하여 음성 생성이 자연스럽고 몰입감 있게 느껴집니다.

예를 참조하세요

소음 프롬프트.webm

소음 출력.webm

더 많은 예제를 보려면 데모 페이지를 살펴보세요!

? Python에서의 사용법

? 기초

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav
from IPython . display import Audio

# download and load all models
preload_models ()

# generate audio from text
text_prompt = """
Hello, my name is Nose. And uh, and I like hamburger. Hahaha... But I also have other interests such as playing tactic toast.
"""
audio_array = generate_audio ( text_prompt )

# save audio to disk
write_wav ( "vallex_generation.wav" , SAMPLE_RATE , audio_array )

# play text in notebook
Audio ( audio_array , rate = SAMPLE_RATE )

hamburger.webm

? 외국어

이 VALL-E X 구현은 중국어와 일본어도 지원합니다. 세 가지 언어 모두 똑같이 놀라운 성능을 발휘합니다!

 text_prompt = """
    チュソクは私のお気に入りの祭りです。 私は数日間休んで、友人や家族との時間を過ごすことができます。
"""
audio_array = generate_audio ( text_prompt )

vallex_japanese.webm

참고: VALL-E X는 코드 전환 텍스트를 합성할 때에도 악센트를 완벽하게 제어합니다. 그러나 각 문장의 언어를 수동으로 표시해야 합니다(g2p 도구는 규칙 기반이므로).

 text_prompt = """
    [EN]The Thirty Years' War was a devastating conflict that had a profound impact on Europe.[EN]
    [ZH]这是历史的开始。 如果您想听更多，请继续。[ZH]
"""
audio_array = generate_audio ( text_prompt , language = 'mix' )

vallex_codeswitch.webm

? 음성 프리셋

VALL-E X는 추론에 직접 사용할 수 있는 수십 개의 스피커 음성을 제공합니다! 코드의 모든 음성 찾아보기

VALL-E X는 주어진 프리셋의 톤, 피치, 감정 및 운율을 일치시키려고 노력합니다. 이 모델은 또한 음악, 주변 소음 등을 보존하려고 시도합니다.

 text_prompt = """
I am an innocent boy with a smoky voice. It is a great honor for me to speak at the United Nations today.
"""
audio_array = generate_audio ( text_prompt , prompt = "dingzhen" )

연기가 자욱한.webm

?음성 복제

VALL-E X는 음성 복제를 지원합니다! 어떤 사람, 캐릭터 또는 자신의 목소리로 음성 안내를 만들고 다른 음성 사전 설정처럼 사용할 수 있습니다.
음성 프롬프트를 만들기 위해서는 3~10초 길이의 음성과 음성 스크립트를 제공해야 합니다. Whisper 모델이 성적표를 생성할 수 있도록 성적표를 비워 둘 수도 있습니다.

VALL-E X는 주어진 프롬프트의 톤, 음조, 감정 및 운율을 일치시키려고 노력합니다. 이 모델은 또한 음악, 주변 소음 등을 보존하려고 시도합니다.

 from utils . prompt_making import make_prompt

### Use given transcript
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" ,
                transcript = "Just, what was that? Paimon thought we were gonna get eaten." )

### Alternatively, use whisper
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" )

이제 방금 만든 프롬프트를 시험해 보겠습니다.

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav

# download and load all models
preload_models ()

text_prompt = """
Hey, Traveler, Listen to this, This machine has taken my voice, and now it can talk just like me!
"""
audio_array = generate_audio ( text_prompt , prompt = "paimon" )

write_wav ( "paimon_cloned.wav" , SAMPLE_RATE , audio_array )

paimon_prompt.webm

paimon_cloned.webm

? 사용자 인터페이스

코드가 불편하신가요? 괜찮아요! 또한 VALL-E X를 위한 사용자 친화적인 그래픽 인터페이스를 만들었습니다. 이를 통해 모델과 쉽게 상호 작용할 수 있으므로 음성 복제 및 다국어 음성 합성이 쉬워집니다.
다음 명령을 사용하여 UI를 시작할 수 있습니다.

 python -X utf8 launch-ui.py

하드웨어 및 추론 속도

VALL-E X는 CPU와 GPU( pytorch 2.0+ , CUDA 11.7 및 CUDA 12.0) 모두에서 잘 작동합니다.

6GB의 GPU VRAM은 오프로드 없이 VALL-E X를 실행하기에 충분합니다.

세부

VALL-E X는 EnCodec에 의해 양자화된 오디오 토큰을 예측하여 GPT 스타일로 오디오를 생성하는 Bark, VALL-E 및 AudioLM과 유사합니다.
나무껍질과 비교:

✔ 경량 : 3️⃣ ✖ 작아지고,
✔ 효율성 : 4️⃣ ✖ 더 빠르고,
✔ 중국어 및 일본어의 품질이 향상되었습니다.
✔ 외국 억양이 없는 교차 언어 사용
✔ 간편한 음성 복제
더 적은 언어
음악/음향 효과에 대한 특별한 토큰이 없습니다.

지원되는 언어

언어	상태
영어(en)	✅
일본어(ja)	✅
중국어, 간체(zh)	✅

❓ 자주 묻는 질문

훈련용 코드는 어디에 있나요?

lifeiteng의 vall-e에는 거의 모든 것이 있습니다. lifeiteng의 구현에는 차이가 없기 때문에 훈련 코드를 출시할 계획이 없습니다.

모델 체크포인트는 어디서 다운로드할 수 있나요?

프로그램을 처음 실행할 때 wget 사용하여 모델을 ./checkpoints/ 디렉토리에 다운로드합니다.
첫 번째 실행에서 다운로드가 실패하면 이 링크에서 수동으로 다운로드하고 파일을 ./checkpoints/ 디렉터리에 넣으십시오.

얼마나 많은 VRAM이 필요합니까?

6GB GPU VRAM - 거의 모든 NVIDIA GPU가 요구 사항을 충족합니다.

모델이 긴 텍스트를 생성하지 못하는 이유는 무엇입니까?

Transformer의 계산 복잡도는 시퀀스 길이가 증가함에 따라 2차적으로 증가합니다. 따라서 모든 훈련은 22초 미만으로 유지됩니다. 적절한 성능을 보장하려면 오디오 메시지와 생성된 오디오의 총 길이가 22초 미만인지 확인하세요.

더 추가될 내용...

? TODO

중국어 README 추가
긴 텍스트 생성
Encodec 디코더를 Vocos 디코더로 교체
더 나은 음성 적응을 위한 미세 조정
Python을 사용하지 않는 사용자를 위한 .bat 스크립트
추가 예정...

감사

기발한 아이디어를 위한 VALL-E X 종이
관련 훈련 코드에 대한 lifeiteng의 vall-e
신경 코덱 TTS 모델의 놀라운 선구적인 작업에 대해 짖어보세요.

️ 당신의 지지를 보여주세요

VALL-E X가 흥미롭고 유용하다고 생각하시면 GitHub에서 별표를 남겨주세요! ️ 계속해서 모델을 개선하고 흥미로운 기능을 추가하도록 장려합니다.

특허

VALL-E X는 MIT 라이선스에 따라 라이선스가 부여됩니다.

질문이 있거나 도움이 필요하신가요? 자유롭게 이슈를 열거나 Discord에 참여하세요

즐거운 음성 복제 되세요! ?

확장하다

추가 정보

버전 1.0.0
유형 AI 소스 코드
업데이트 시간 2024-12-09
크기 14.8MB
출처 Github

VALL E X

VALL-E X: 다국어 텍스트 음성 합성 및 음성 복제 ?

빠른 색인

업데이트

설치

pip, Python 3.10, CUDA 11.7 ~ 12.0, PyTorch 2.0+로 설치

시민

? 특징

예를 참조하세요

예를 참조하세요

예를 참조하세요

예를 참조하세요

예를 참조하세요

? Python에서의 사용법

? 기초

? 외국어

? 음성 프리셋

?음성 복제

? 사용자 인터페이스

하드웨어 및 추론 속도

세부

지원되는 언어

❓ 자주 묻는 질문

훈련용 코드는 어디에 있나요?

모델 체크포인트는 어디서 다운로드할 수 있나요?

얼마나 많은 VRAM이 필요합니까?

모델이 긴 텍스트를 생성하지 못하는 이유는 무엇입니까?

더 추가될 내용...

? TODO

감사

️ 당신의 지지를 보여주세요

특허