VALL EXダウンロード - VALL EXソースコードのダウンロード

VALL E X

AI ソースコード

1.0.0

ダウンロード

VALL-E X: 多言語テキスト読み上げ合成と音声クローン作成 ?

英語 | 中国語
Microsoft の VALL-E X ゼロショット TTS モデルのオープンソース実装。
研究やアプリケーションでの使用のために、トレーニング済みのモデルを一般に公開します。

vallex-framework

VALL-E X は、Microsoft が提案した驚くべき多言語音声合成 (TTS) モデルです。 Microsoft は最初に研究論文を発表しましたが、コードや事前トレーニングされたモデルはリリースしませんでした。このテクノロジーの可能性と価値を認識し、私たちのチームは結果を再現し、独自のモデルをトレーニングすることに挑戦しました。トレーニングされた VALL-E X モデルをコミュニティと共有し、誰もが強力な次世代 TTS を体験できることを嬉しく思います。

モデルの詳細については、モデルカードに記載されています。

クイックインデックス

アップデート
?特徴
インストール
デモ
?使用法
❓ よくある質問
? TODO

アップデート

2023.09.10

より安定した生成結果を得るために、AR デコーダのバッチデコードを追加しました。

2023.08.30

EnCodec デコーダを Vocos デコーダに置き換え、オーディオ品質を向上させました。 (@v0xie に感謝)

2023.08.23

長いテキストの生成を追加しました。

2023.08.20

中国語の README を追加しました。

2023.08.14

事前トレーニングされた VALL-E X チェックポイントがリリースされました。ここからダウンロードしてください

インストール

pip、Python 3.10、CUDA 11.7 ～ 12.0、PyTorch 2.0+ でインストール

 git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
pip install -r requirements.txt

注: プロンプトを表示したい場合は、ffmpeg をインストールし、そのフォルダーを環境変数 PATH に追加する必要があります。

プログラムを初めて実行すると、対応するモデルが自動的にダウンロードされます。

ダウンロードが失敗し、エラーが報告された場合は、以下の手順に従ってモデルを手動でダウンロードしてください。

(フォルダの大文字小文字に注意してください)

インストールディレクトリにcheckpointsフォルダがあるか確認してください。そうでない場合は、インストールディレクトリにcheckpointsフォルダー ( ./checkpoints/ ) を手動で作成します。
checkpointsフォルダーにvallex-checkpoint.ptファイルがあるかどうかを確認します。そうでない場合は、ここからvallex-checkpoint.ptファイルを手動でダウンロードし、 checkpointsフォルダーに配置してください。
インストールディレクトリにwhisperフォルダがあるか確認してください。そうでない場合は、インストールディレクトリにwhisperフォルダー ( ./whisper/ ) を手動で作成します。
whisperフォルダーにmedium.ptファイルがあるかどうかを確認してください。そうでない場合は、ここからmedium.ptファイルを手動でダウンロードし、 whisperフォルダーに配置してください。

デモ

ローカルマシンに環境をセットアップする準備がまだ整っていませんか?問題ない！オンラインデモをご利用いただけます。 Hugging Face または Google Colab で VALL-E X を直接試すことができ、モデルの機能を手間なく体験できます。

?特徴

VALL-E X には最先端の機能が満載です。

多言語 TTS : 自然で表現力豊かな音声合成により、英語、中国語、日本語の 3 か国語で話します。
ゼロショット音声クローン作成: 見えない話者の 3 ～ 10 秒の短い録音を登録し、VALL-E X がその話者と同じように聞こえる、パーソナライズされた高品質の音声を作成する様子をご覧ください。

例を参照

プロンプト.webm

出力.webm

スピーチ感情コントロール: 感情の力を体験してください! VALL-E X は、提供される音響プロンプトと同じ感情を伴う音声を合成し、オーディオにさらなる表現力を追加できます。

例を参照

眠いプロンプト.mp4

眠そうな出力.mp4

Zero-shot Cross-Lingual Speech Synthesis : 単一言語話者を言語の旅に連れて行きましょう! VALL-E X は、流暢さやアクセントを損なうことなく、別の言語でパーソナライズされた音声を生成できます。以下は日本人スピーカーによる中国語と英語でのトークです。 ?? ?

例を参照

jp-prompt.webm

en-output.webm

zh-output.webm

アクセントコントロール: アクセントを使って創造力を発揮しましょう。 VALL-E X を使用すると、中国語を英語のアクセントで話す、またはその逆など、さまざまなアクセントを試すことができます。 ??

例を参照

en-prompt.webm

zh-accent-output.webm

en-accent-output.webm

音響環境のメンテナンス: 完璧にきれいな音声プロンプトは必要ありません。 VALL-E X は入力の音響環境に適応し、自然で臨場感のある音声生成を実現します。

例を参照

ノイズプロンプト.webm

ノイズ出力.webm

さらに多くの例については、デモページをご覧ください。

? Pythonでの使用法

?基本

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav
from IPython . display import Audio

# download and load all models
preload_models ()

# generate audio from text
text_prompt = """
Hello, my name is Nose. And uh, and I like hamburger. Hahaha... But I also have other interests such as playing tactic toast.
"""
audio_array = generate_audio ( text_prompt )

# save audio to disk
write_wav ( "vallex_generation.wav" , SAMPLE_RATE , audio_array )

# play text in notebook
Audio ( audio_array , rate = SAMPLE_RATE )

ハンバーガー.ウェブム

?外国語

この VALL-E X 実装は中国語と日本語もサポートしています。 3 つの言語はどれも同様に素晴らしいパフォーマンスを持っています。

 text_prompt = """
    チュソクは私のお気に入りの祭りです。 私は数日間休んで、友人や家族との時間を過ごすことができます。
"""
audio_array = generate_audio ( text_prompt )

vallex_japanese.webm

注: VALL-E X コントロールは、コードスイッチテキストを合成する場合でも完璧にアクセントを加えます。ただし、それぞれの文の言語を手動で指定する必要があります (g2p ツールはルールベースであるため)。

 text_prompt = """
    [EN]The Thirty Years' War was a devastating conflict that had a profound impact on Europe.[EN]
    [ZH]这是历史的开始。 如果您想听更多，请继续。[ZH]
"""
audio_array = generate_audio ( text_prompt , language = 'mix' )

vallex_codeswitch.webm

?音声プリセット

VALL-E X は、推論に直接使用できる数十のスピーカーボイスを提供します。コード内のすべての音声を参照する

VALL-E X は、指定されたプリセットのトーン、ピッチ、感情、韻律の一致を試みます。このモデルは、音楽や周囲の騒音などを保存することも試みます。

 text_prompt = """
I am an innocent boy with a smoky voice. It is a great honor for me to speak at the United Nations today.
"""
audio_array = generate_audio ( text_prompt , prompt = "dingzhen" )

スモーキーウェブム

?音声クローン作成

VALL-E X は音声クローン作成をサポートしています!任意の人物、キャラクター、または自分の声で音声プロンプトを作成し、他の音声プリセットと同様に使用できます。
音声プロンプトを作成するには、3 ～ 10 秒間のスピーチとそのスピーチのトランスクリプトを提供する必要があります。トランスクリプトを空白のままにして、Whisper モデルにトランスクリプトを生成させることもできます。

VALL-E X は、指定されたプロンプトのトーン、ピッチ、感情、韻律を一致させようとします。このモデルは、音楽や周囲の騒音などを保存することも試みます。

 from utils . prompt_making import make_prompt

### Use given transcript
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" ,
                transcript = "Just, what was that? Paimon thought we were gonna get eaten." )

### Alternatively, use whisper
make_prompt ( name = "paimon" , audio_prompt_path = "paimon_prompt.wav" )

では、作成したプロンプトを試してみましょう。

 from utils . generation import SAMPLE_RATE , generate_audio , preload_models
from scipy . io . wavfile import write as write_wav

# download and load all models
preload_models ()

text_prompt = """
Hey, Traveler, Listen to this, This machine has taken my voice, and now it can talk just like me!
"""
audio_array = generate_audio ( text_prompt , prompt = "paimon" )

write_wav ( "paimon_cloned.wav" , SAMPLE_RATE , audio_array )

paimon_prompt.webm

paimon_cloned.webm

?ユーザーインターフェース

コードに慣れていないですか?問題ない！また、VALL-E X 用の使いやすいグラフィカルインターフェイスも作成しました。これにより、モデルを簡単に操作できるようになり、音声のクローン作成や多言語音声合成が簡単になります。
次のコマンドで UI を起動できます。

 python -X utf8 launch-ui.py

ハードウェアと推論速度

VALL-E X は CPU と GPU ( pytorch 2.0+ 、CUDA 11.7 および CUDA 12.0) の両方でうまく動作します。

6GB の GPU VRAM は、オフロードせずに VALL-E X を実行するのに十分です。

詳細

VALL-E X は Bark、VALL-E、AudioLM に似ており、EnCodec によって量子化されたオーディオトークンを予測することで GPT スタイルでオーディオを生成します。
バークとの比較:

✔軽量: 3️⃣ ✖ 小さく、
✔効率的: 4️⃣ ✖ 速く、
✔中国語と日本語の品質が向上
✔外国訛りのない多言語会話
✔簡単な音声クローン作成
言語が少なくなる
音楽/効果音用の特別なトークンはありません

サポートされている言語

言語	状態
英語 (en)	✅
日本語 (ja)	✅
中国語、簡体字 (zh)	✅

❓ よくある質問

トレーニング用のコードはどこにありますか?

lifeitengのval-eにはほぼすべてが揃っています。 lifeiteng の実装と違いがないため、トレーニングコードを公開する予定はありません。

モデルチェックポイントはどこでダウンロードできますか?

プログラムを初めて実行するときに、 wget使用してモデルをディレクトリ./checkpoints/にダウンロードします。
最初の実行でダウンロードが失敗した場合は、このリンクから手動でダウンロードし、ファイルをディレクトリ./checkpoints/に配置してください。

どれくらいの VRAM が必要ですか?

6GB GPU VRAM - ほぼすべての NVIDIA GPU が要件を満たしています。

モデルが長いテキストの生成に失敗するのはなぜですか?

Transformer の計算の複雑さは、シーケンスの長さが増加するにつれて二次関数的に増加します。したがって、すべてのトレーニングは 22 秒以内に維持されます。許容可能なパフォーマンスを確保するには、音声プロンプトと生成された音声の合計の長さが 22 秒未満であることを確認してください。

さらに追加する必要があります...

? TODO

中国語の README を追加
長いテキストの生成
Encodec デコーダを Vocos デコーダに置き換えます
音声適応を改善するための微調整
Python 以外のユーザー向けの.batスクリプト
追加予定...

感謝

素晴らしいアイデアを実現する VALL-E X ペーパー
関連するトレーニングコードについては lifeiteng の val-e
ニューロコーデック TTS モデルにおける驚くべき先駆的研究に感謝します

️ サポートを示してください

VALL-E X が面白くて役に立つと思ったら、GitHub でスターを付けてください。 ️ これは、モデルを改善し続け、エキサイティングな機能を追加することを奨励します。

ライセンス

VALL-E X は MIT ライセンスに基づいてライセンスされています。

ご質問がありますか、サポートが必要ですか?気軽に問題を開いたり、Discord に参加したりしてください

音声クローン作成おめでとうございます! ?

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2024-12-09
サイズ 14.8MB
から Github

VALL E X

VALL-E X: 多言語テキスト読み上げ合成と音声クローン作成 ?

クイックインデックス

アップデート

インストール

pip、Python 3.10、CUDA 11.7 ～ 12.0、PyTorch 2.0+ でインストール

デモ

?特徴

例を参照

例を参照

例を参照

例を参照

例を参照

? Pythonでの使用法

?基本

?外国語

?音声プリセット

?音声クローン作成

?ユーザーインターフェース

ハードウェアと推論速度

詳細

サポートされている言語

❓ よくある質問

トレーニング用のコードはどこにありますか?

モデル チェックポイントはどこでダウンロードできますか?

どれくらいの VRAM が必要ですか?

モデルが長いテキストの生成に失敗するのはなぜですか?

さらに追加する必要があります...

? TODO

感謝

️ サポートを示してください

ライセンス

モデルチェックポイントはどこでダウンロードできますか?