VALL EX下載 - VALL EX原始碼下載

VALL E X

Ai源碼

1.0.0

下載

VALL-E X：多語言文字轉語音合成和語音複製？

英語 | 中文
Microsoft VALL-E X 零樣本 TTS 模型的開源實作。
我們向公眾發布經過訓練的模型以供研究或應用程式使用。

vallex-framework

VALL-E X 是微軟提出的一個令人驚嘆的多語言文字轉語音 (TTS) 模型。雖然微軟最初在他們的研究論文中發表了這一消息，但他們沒有發布任何程式碼或預訓練模型。認識到這項技術的潛力和價值，我們的團隊接受了重現結果並訓練我們自己的模型的挑戰。我們很高興與社區分享我們訓練的VALL-E X模型，讓大家體驗下一代TTS的強大！

有關該模型的更多詳細資訊請參閱模型卡。

快速索引

更新
？特徵
安裝
示範
？用法
❓ 常見問題解答
？待辦事項

更新

2023.09.10

新增AR解碼器批次解碼，產生結果更穩定。

2023.08.30

將EnCodec解碼器替換為Vocos解碼器，提高了音訊品質。（感謝@v0xie）

2023.08.23

新增了長文本生成。

2023.08.20

新增了中文README。

2023.08.14

預先訓練的 VALL-E X 檢查點現已發布。在這裡下載

安裝

使用 pip 安裝，Python 3.10，CUDA 11.7 ~ 12.0，PyTorch 2.0+

 git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
pip install -r requirements.txt

注意：如果要進行提示，需要安裝ffmpeg並將其資料夾新增至環境變數PATH。

當您第一次運行程式時，它會自動下載相應的模型。

如果下載失敗並報錯，請按照以下步驟手動下載模型。

（請注意資料夾大小寫）

檢查安裝目錄下是否有checkpoints資料夾。如果沒有，請在安裝目錄中手動建立checkpoints資料夾 ( ./checkpoints/ )。
檢查checkpoints資料夾下是否有vallex-checkpoint.pt檔。如果沒有，請從此處手動下載vallex-checkpoint.pt檔案並將其放入checkpoints資料夾中。
檢查安裝目錄下是否有whisper資料夾。如果沒有，請在安裝目錄中手動建立一個whisper資料夾 ( ./whisper/ )。
檢查whisper資料夾下是否有medium.pt檔。如果沒有，請從這裡手動下載medium.pt檔案並將其放入whisper資料夾中。

示範

還沒準備好在本機上設定環境嗎？沒問題！我們為您提供了線上演示。您可以直接在 Hugging Face 或 Google Colab 上試用 VALL-E X，輕鬆體驗該模型的功能！

？特徵

VALL-E X 配備了尖端功能：

多語言 TTS ：以三種語言（英語、中文和日語）說話，具有自然且富有表現力的語音合成。
零樣本語音複製：註冊一個看不見的說話者的 3~10 秒短錄音，然後觀看 VALL-E X 創造聽起來像他們一樣的個性化、高品質語音！

請參閱範例

提示.webm

輸出.webm

言語情緒控制：體驗情緒的力量！ VALL-E X 可以合成與所提供的聲音提示具有相同情緒的語音，為您的音訊添加額外的表現力。

請參閱範例

瞌睡提示.mp4

困倦輸出.mp4

零樣本跨語言語音合成：帶領單語使用者踏上語言之旅！ VALL-E X 可以用另一種語言產生個人化語音，而不會影響流暢性或口音。以下是日語演講者的中文和英文演講。 ?? ？

請參閱範例

jp-提示.webm

en-輸出.webm

zh-輸出.webm

口音控制：發揮口音創意！ VALL-E X 允許您嘗試不同的口音，例如用英語口音說中文，反之亦然。 ??

請參閱範例

en-prompt.webm

zh-accent-output.webm

en-accent-output.webm

聲學環境維護：不需要完全乾淨的音訊提示！ VALL-E X 適應輸入的聲學環境，讓語音生成感覺自然且身臨其境。

請參閱範例

噪音提示.webm

雜訊輸出.webm

探索我們的演示頁面以獲取更多範例！

？ Python 中的用法

？基礎知識

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav
from IPython . display import Audio

# download and load all models
preload_models ()

# generate audio from text
text_prompt = """
Hello, my name is Nose. And uh, and I like hamburger. Hahaha... But I also have other interests such as playing tactic toast.
"""
audio_array = generate_audio ( text_prompt )

# save audio to disk
write_wav ( "vallex_generation.wav" , SAMPLE_RATE , audio_array )

# play text in notebook
Audio ( audio_array , rate = SAMPLE_RATE )

漢堡包.webm

？外語

此 VALL-E X 實作也支援中文和日文。所有三種語言都具有同樣出色的性能！

 text_prompt = """
    チュソクは私のお気に入りの祭りです。 私は数日間休んで、友人や家族との時間を過ごすことができます。
"""
audio_array = generate_audio ( text_prompt )

vallex_japanese.webm

注意：即使在合成程式碼切換文字時，VALL-E X 也能完美控制重音。但是，您需要手動表示各個句子的語言（因為我們的 g2p 工具是基於規則的）

 text_prompt = """
    [EN]The Thirty Years' War was a devastating conflict that had a profound impact on Europe.[EN]
    [ZH]这是历史的开始。 如果您想听更多，请继续。[ZH]
"""
audio_array = generate_audio ( text_prompt , language = 'mix' )

vallex_codeswitch.webm

？語音預設

VALL-E X提供數十種說話人聲音，可以直接用於推理！瀏覽程式碼中所有聲音

VALL-E X 嘗試匹配給定預設的音調、音調、情感和節奏。該模型還嘗試保留音樂、環境噪音等。

 text_prompt = """
I am an innocent boy with a smoky voice. It is a great honor for me to speak at the United Nations today.
"""
audio_array = generate_audio ( text_prompt , prompt = "dingzhen" )

煙燻網

?語音克隆

VALL-E X支援語音克隆！您可以用任何人、角色甚至您自己的聲音製作語音提示，並像其他語音預設一樣使用它。
要進行語音提示，您需要提供3~10秒長的演講，以及演講的文字記錄。您也可以將轉錄物留空，讓 Whisper 模型產生轉錄物。

VALL-E X 嘗試匹配給定提示的語氣、音調、情感和韻律。該模型還嘗試保留音樂、環境噪音等。

 from utils . prompt_making import make_prompt

### Use given transcript
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" ,
                transcript = "Just, what was that? Paimon thought we were gonna get eaten." )

### Alternatively, use whisper
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" )

現在讓我們嘗試一下我們剛剛做出的提示！

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav

# download and load all models
preload_models ()

text_prompt = """
Hey, Traveler, Listen to this, This machine has taken my voice, and now it can talk just like me!
"""
audio_array = generate_audio ( text_prompt , prompt = "paimon" )

write_wav ( "paimon_cloned.wav" , SAMPLE_RATE , audio_array )

paimon_prompt.webm

paimon_cloned.webm

?使用者介面

對程式碼不滿意？沒問題！我們還為 VALL-E X 創建了一個用戶友好的圖形介面。
您可以透過以下命令啟動 UI：

 python -X utf8 launch-ui.py

硬體和推理速度

VALL-E X 在 CPU 和 GPU 上都能很好地運作（ pytorch 2.0+ 、CUDA 11.7 和 CUDA 12.0）。

6GB 的 GPU VRAM 足以運行 VALL-E X，無需卸載。

細節

VALL-E X 與 Bark、VALL-E 和 AudioLM 類似，透過預測 EnCodec 量化的音訊標記來產生 GPT 風格的音訊。
與樹皮相比：

✔重量輕：3️⃣✖更小，
✔高效：4️⃣✖ 更快，
✔中文和日文品質較好
✔跨語言演講，沒有外國口音
✔輕鬆的語音克隆
語言較少
沒有音樂/音效的特殊標記

支援的語言

語言	地位
英語（en）	✅
日文 (ja)	✅
簡體中文 (zh)	✅

❓ 常見問題解答

訓練代碼在哪裡？

力騰的val-e幾乎什麼都有。沒有計劃發布我們的訓練代碼，因為Lifeiteng的實現沒有區別。

在哪裡可以下載模型檢查點？

當您第一次執行程式時，我們使用wget將模型下載到目錄./checkpoints/中。
如果第一次下載失敗，請從此連結手動下載，並將檔案放在目錄./checkpoints/下。

我需要多少顯存？

6GB GPU VRAM - 幾乎所有 NVIDIA GPU 都符合要求。

為什麼模型無法生成長文本？

隨著序列長度的增加，Transformer 的計算複雜度呈現二次方增加。因此，所有訓練時間都控制在 22 秒以內。請確保音訊提示和產生的音訊的總長度小於 22 秒，以確保可接受的效能。

？待辦事項

欣賞

VALL-E X 紙的絕妙創意
生命騰相關訓練代碼的val-e
讚揚神經編解碼器 TTS 模型中令人驚嘆的開創性工作

️表達你的支持

如果您發現 VALL-E X 有趣且有用，請在 GitHub 上給我們一個 Star！ ️ 它鼓勵我們不斷改進模型並添加令人興奮的功能。

執照

VALL-E X 根據 MIT 許可證獲得許可。

有疑問或需要協助嗎？歡迎提問或加入我們的 Discord

快樂的聲音克隆！？

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2024-12-09
大小 14.8MB
來自於 Github

相關應用

x flux comfyui

2024-11-09
動漫X應用程式

2024-08-24
X AIRHOME 應用程式

2023-07-17
FUJIFILM X 應用程式

2023-05-25
代號 X

2023-05-11
烏冬金 X

2022-07-28

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
node telegram bot api

Ai源碼

v0.50.0
typebot.io

Ai源碼

v3.1.2
python wechaty getting started

Ai源碼

1.0.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部

VALL E X

VALL-E X：多語言文字轉語音合成和語音複製？

快速索引

更新

安裝

使用 pip 安裝，Python 3.10，CUDA 11.7 ~ 12.0，PyTorch 2.0+

示範

？特徵

請參閱範例

請參閱範例

請參閱範例

請參閱範例

請參閱範例

？ Python 中的用法

？基礎知識

？外語

？語音預設

?語音克隆

?使用者介面

硬體和推理速度

細節

支援的語言

❓ 常見問題解答

訓練代碼在哪裡？

在哪裡可以下載模型檢查點？

我需要多少顯存？

為什麼模型無法生成長文本？

更多內容待添加...

？待辦事項

欣賞

️表達你的支持

執照