英語 | 简体中文 | 日本語
現在発売されているモデルはゼロショット音声変換に対応していますか? 、ゼロショットリアルタイム音声変換とゼロショット歌声変換。トレーニングなしで、1〜30秒のリファレンススピーチを与えられた音声のクローンを作成できます。
デモのリストと以前の音声変換モデルとの比較については、デモ ページにアクセスしてください。
私たちはモデルの品質を向上させ、機能を追加し続けています。
私たちは、Seed-VC の音声変換機能について一連の客観的な評価を実行しました。再現を容易にするため、ソース オーディオは LibriTTS-test-clean からの 100 個のランダムな発話であり、参照オーディオは、独自の特徴を持つ自然界でランダムに選択された 12 個の音声です。
ソースオーディオは./examples/libritts-test-clean
にあります。
参考音声は./examples/reference
にあります。
話者埋め込みコサイン類似度 (SECS)、単語誤り率 (WER)、および文字誤り率 (CER) の観点から変換結果を評価し、結果を 2 つの強力なオープンソース ベースライン、つまり OpenVoice と CosyVoice と比較しました。
以下の表の結果は、Seed-VC モデルが明瞭さと話者の類似性の両方においてベースライン モデルを大幅に上回っていることを示しています。
モデルメトリクス | セクス↑ | ワー↓ | CER↓ | シグ↑ | バク↑ | OVRL↑ |
---|---|---|---|---|---|---|
グラウンドトゥルース | 1.0000 | 8.02 | 1.57 | ~ | ~ | ~ |
オープンボイス | 0.7547 | 15.46 | 4.73 | 3.56 | 4.02 | 3.27 |
コージーボイス | 0.8440 | 18.98 | 7.29 | 3.51 | 4.02 | 3.21 |
Seed-VC(当社) | 0.8676 | 11.99 | 2.92 | 3.42 | 3.97 | 3.11 |
また、いくつかのスピーカーの非ゼロショット音声変換モデルと比較しました (モデルの入手可能性に基づいて)。
キャラクター | モデルメトリクス | セクス↑ | ワー↓ | CER↓ | シグ↑ | バク↑ | OVRL↑ |
---|---|---|---|---|---|---|---|
~ | グラウンドトゥルース | 1.0000 | 6.43 | 1.00 | ~ | ~ | ~ |
トウカイテイオー | So-VITS-4.0 | 0.8637 | 21.46 | 9.63 | 3.06 | 3.66 | 2.68 |
Seed-VC(当社) | 0.8899 | 15.32 | 4.66 | 3.12 | 3.71 | 2.72 | |
ミルキーグリーン | So-VITS-4.0 | 0.6850 | 48.43 | 32.50 | 3.34 | 3.51 | 2.82 |
Seed-VC(当社) | 0.8072 | 7.26 | 1.32 | 3.48 | 4.07 | 3.20 | |
マティカネ・タンフアサー | So-VITS-4.0 | 0.8594 | 16.25 | 8.64 | 3.25 | 3.71 | 2.84 |
Seed-VC(当社) | 0.8768 | 12.62 | 5.86 | 3.18 | 3.83 | 2.85 |
結果は、ターゲット スピーカーでトレーニングされていないにもかかわらず、Seed-VC が非ゼロショット モデルよりも大幅に優れた結果を達成できることを示しています。ただし、これは SoVITS モデルの品質によって大きく異なる場合があります。この比較が不公平または不正確であると思われる場合は、PR または問題を提起してください。
(zomehwh/sovits-tannhauser のトウカイテイオーモデル)
(zomehwh/sovits-tannhauser のマチカネ タンホイザー モデル)
(sparanoid/milky-green-sovits-4 のミルキー グリーン モデル)
facebook/hubert-large-ls960-ft モデルによって計算された英語の ASR 結果
リライクライザーモデルによって計算されたスピーカーエンベディング
eval.py
スクリプトを実行することで評価を再現できます。
Python eval.py --source ./examples/libritts-test-clean --target ./examples/reference --output ./examples/eval/converted --拡散ステップ 25 --length-adjust 1.0 --inference-cfg-rate 0.7 --xvector-extractor "resemblyzer"--baseline "" # ベースライン結果を計算するために openvoice または cosyvoice を入力します --max-samples 100 # 通過するソース発話の最大数
ベースライン評価を実行する場合は、その前に、openvoice および cosyvoice リポジトリが../OpenVoice/
および../CosyVoice/
に正しくインストールされていることを確認してください。
追加の歌声変換評価は、オーディオ データがここで入手できる 4 つのターゲット スピーカーを使用して、M4Singer データセットで行われます。
話者の類似性は、変換結果とそれぞれの文字データセット内の利用可能なすべてのサンプルの間のコサイン類似性を平均することによって計算されます。
キャラクターごとに、ゼロショット推論のプロンプトとして 1 つのランダムな発話が選択されます。比較のために、各キャラクターのそれぞれの RVCv2-f0-48k モデルをベースラインとしてトレーニングしました。
歌手タイプごとに 100 個のランダムな発話がソース オーディオとして使用されます。
モデルメトリクス | F0CORR↑ | F0RMSE↓ | セクス↑ | CER↓ | シグ↑ | バク↑ | OVRL↑ |
---|---|---|---|---|---|---|---|
RVCv2 | 0.9404 | 30.43 | 0.7264 | 28.46 | 3.41 | 4.05 | 3.12 |
Seed-VC(当社) | 0.9375 | 33.35 | 0.7405 | 19.70 | 3.39 | 3.96 | 3.06 |
ソース歌手のタイプ | キャラクター | モデルメトリクス | F0CORR↑ | F0RMSE↓ | セクス↑ | CER↓ | シグ↑ | バク↑ | OVRL↑ |
---|---|---|---|---|---|---|---|---|---|
アルト(女) | ~ | グラウンドトゥルース | 1.0000 | 0.00 | ~ | 8.16 | ~ | ~ | ~ |
あづま(女) | RVCv2 | 0.9617 | 33.03 | 0.7352 | 24.70 | 3.36 | 4.07 | 3.07 | |
Seed-VC(当社) | 0.9658 | 31.64 | 0.7341 | 15.23 | 3.37 | 4.02 | 3.07 | ||
ダイアナ(女性) | RVCv2 | 0.9626 | 32.56 | 0.7212 | 19.67 | 3.45 | 4.08 | 3.17 | |
Seed-VC(当社) | 0.9648 | 31.94 | 0.7457 | 16.81 | 3.49 | 3.99 | 3.15 | ||
ディン・ジェン(男性) | RVCv2 | 0.9013 | 26.72 | 0.7221 | 18.53 | 3.37 | 4.03 | 3.06 | |
Seed-VC(当社) | 0.9356 | 21.87 | 0.7513 | 15.63 | 3.44 | 3.94 | 3.09 | ||
コービー・ブライアント(男性) | RVCv2 | 0.9215 | 23.90 | 0.7495 | 37.23 | 3.49 | 4.06 | 3.21 | |
Seed-VC(当社) | 0.9248 | 23.40 | 0.7602 | 26.98 | 3.43 | 4.02 | 3.13 | ||
ベース(男性) | ~ | グラウンドトゥルース | 1.0000 | 0.00 | ~ | 8.62 | ~ | ~ | ~ |
あづま | RVCv2 | 0.9288 | 32.62 | 0.7148 | 24.88 | 3.45 | 4.10 | 3.18 | |
Seed-VC(当社) | 0.9383 | 31.57 | 0.6960 | 10.31 | 3.45 | 4.03 | 3.15 | ||
ダイアナ | RVCv2 | 0.9403 | 30.00 | 0.7010 | 14.54 | 3.53 | 4.15 | 3.27 | |
Seed-VC(当社) | 0.9428 | 6月30日 | 0.7299 | 9.66 | 3.53 | 4.11 | 3.25 | ||
ディン・ジェン | RVCv2 | 0.9061 | 19.53 | 0.6922 | 25.99 | 3.36 | 4.09 | 3.08 | |
Seed-VC(当社) | 0.9169 | 18.15 | 0.7260 | 14.13 | 3.38 | 3.98 | 3.07 | ||
コービー・ブライアント | RVCv2 | 0.9302 | 16.37 | 0.7717 | 41.04 | 3.51 | 4.13 | 3.25 | |
Seed-VC(当社) | 0.9176 | 17.93 | 0.7798 | 24.23 | 3.42 | 4.08 | 3.17 | ||
ソプラノ(女性) | ~ | グラウンドトゥルース | 1.0000 | 0.00 | ~ | 27.92 | ~ | ~ | ~ |
あづま | RVCv2 | 0.9742 | 47.80 | 0.7104 | 38.70 | 3.14 | 3.85 | 2.83 | |
Seed-VC(当社) | 0.9521 | 64.00 | 0.7177 | 33.10 | 3.15 | 3.86 | 2.81 | ||
ダイアナ | RVCv2 | 0.9754 | 46.59 | 0.7319 | 32.36 | 3.14 | 3.85 | 2.83 | |
Seed-VC(当社) | 0.9573 | 59.70 | 0.7317 | 30.57 | 3.11 | 3.78 | 2.74 | ||
ディン・ジェン | RVCv2 | 0.9543 | 31.45 | 0.6792 | 40.80 | 3.41 | 4.08 | 3.14 | |
Seed-VC(当社) | 0.9486 | 33.37 | 0.6979 | 34.45 | 3.41 | 3.97 | 3.10 | ||
コービー・ブライアント | RVCv2 | 0.9691 | 25.50 | 0.6276 | 61.59 | 3.43 | 4.04 | 3.15 | |
Seed-VC(当社) | 0.9496 | 32.76 | 0.6683 | 39.82 | 3.32 | 3.98 | 3.04 | ||
テノール(男性) | ~ | グラウンドトゥルース | 1.0000 | 0.00 | ~ | 5.94 | ~ | ~ | ~ |
あづま | RVCv2 | 0.9333 | 42.09 | 0.7832 | 16.66 | 3.46 | 4.07 | 3.18 | |
Seed-VC(当社) | 0.9162 | 48.06 | 0.7697 | 8.48 | 3.38 | 3.89 | 3.01 | ||
ダイアナ | RVCv2 | 0.9467 | 36.65 | 0.7729 | 15.28 | 3.53 | 4.08 | 3.24 | |
Seed-VC(当社) | 0.9360 | 41.49 | 0.7920 | 8.55 | 3.49 | 3.93 | 3.13 | ||
ディン・ジェン | RVCv2 | 0.9197 | 22.82 | 0.7591 | 12.92 | 3.40 | 4.02 | 3.09 | |
Seed-VC(当社) | 0.9247 | 22.77 | 0.7721 | 13.95 | 3.45 | 3.82 | 3.05 | ||
コービー・ブライアント | RVCv2 | 0.9415 | 19.33 | 0.7507 | 30.52 | 3.48 | 4.02 | 3.19 | |
Seed-VC(当社) | 0.9082 | 24.86 | 0.7764 | 13.35 | 3.39 | 3.93 | 3.07 |
Seed-VC はターゲット話者に対してトレーニングされておらず、ランダムな発話が 1 つだけプロンプトとして使用されているにも関わらず、話者類似性 (SECS) と明瞭度 (CER) の点で話者固有の RVCv2 モデルを常に上回っており、優れた音声を示しています。 Seed-VC のクローン作成機能と堅牢性。
ただし、Seed-VC のオーディオ品質 (DNSMOS) は RVCv2 よりもわずかに低いことが観察されます。当社ではこの欠点を真摯に受け止め、将来的にはオーディオ品質の向上を最優先に取り組んでまいります。
この比較が不公平または不正確であると思われる場合は、PR または問題を提起してください。
SenseVoiceSmall によって計算された中国語の ASR 結果
リライクライザーモデルによって計算されたスピーカーエンベディング
男性から女性への変換には +12 半音のピッチ シフトを設定し、女性から男性への変換には -12 半音のピッチ シフトを設定します。それ以外の場合は 0 ピッチ シフトを設定します。
Windows または Linux では Python 3.10 を推奨します。
pip install -r 要件.txt
最新モデル リリースのチェックポイントは、初めて推論を実行するときに自動的にダウンロードされます。
コマンドライン推論:
python inference.py --source <source-wav>--target <referene-wav>--output <output-dir>--diffusion-steps 25 # 歌声変換には50~100を推奨 --length-adjust 1.0 --inference-cfg-rate 0.7 --f0-condition False # 歌声変換の場合は True に設定します --auto-f0-adjust False # True に設定するとソース ピッチをターゲット ピッチ レベルに自動調整します。通常は歌声変換では使用されません --semi-tone-shift 0 # 歌声変換のための半音単位のピッチシフト
どこ:
source
参照音声に変換する音声ファイルへのパスです。
target
音声参照としての音声ファイルへのパスです。
output
出力ディレクトリへのパスです。
diffusion-steps
使用する拡散ステップの数です。デフォルトは 25、最高の品質を得るには 50 ~ 100 を使用し、最速の推論を得るには 4 ~ 10 を使用します。
length-adjust
長さ調整係数です。デフォルトは 1.0 です。音声を速くするには <1.0 に設定し、音声を遅くするには >1.0 に設定します。
inference-cfg-rate
出力には微妙な違いがあり、デフォルトは 0.7 です。
f0-condition
出力のピッチをソースオーディオのピッチに合わせるためのフラグです。デフォルトは False で、歌声変換の場合は True に設定されます。
auto-f0-adjust
、ソースピッチをターゲットピッチレベルに自動調整するフラグです。デフォルトは False で、通常は歌声変換では使用されません。
semi-tone-shift
歌声変換時のピッチシフトを半音単位で指定します。デフォルトは0です。
Gradio Web インターフェイス:
Python app.py
次に、ブラウザを開いてhttp://localhost:7860/
に移動し、Web インターフェイスを使用します。
リアルタイム音声変換 GUI:
PythonリアルタイムGUI.py
重要: リアルタイム音声変換には GPU を使用することを強くお勧めします。
NVIDIA RTX 3060 ラップトップ GPU で一部のパフォーマンス テストが行われ、結果と推奨パラメーター設定が以下にリストされています。
備考 | 拡散ステップ | 推論 CFG レート | プロンプトの最大長 | ブロック時間 (秒) | クロスフェードの長さ (秒) | 追加のコンテキスト (左) (s) | 追加のコンテキスト (右) (s) | レイテンシー (ミリ秒) | 品質 | チャンクあたりの推論時間 (ミリ秒) |
---|---|---|---|---|---|---|---|---|---|---|
ほとんどの声に適しています | 10 | 0.7 | 3.0 | 1.0秒 | 0.04秒 | 0.5秒 | 0.02秒 | 2070ミリ秒 | 中くらい | 849ミリ秒 |
甲高い女性の声のパフォーマンスが向上 | 20 | 0.7 | 3.0 | 2.0秒 | 0.04秒 | 0.5秒 | 0.02秒 | 4070ミリ秒 | 高い | 1585ミリ秒 |
オーディオ品質の要件が低いため、一部の男性の声に適しています | 5 | 0.7 | 3.0 | 0.6秒 | 0.04秒 | 0.5秒 | 0.02秒 | 1270ミリ秒 | 低い | 488ミリ秒 |
inference_cfg_rate を 0.0 に設定すると推論が高速化されますが、パフォーマンスが低下するかどうかはわかりません... | 10 | 0.0 | 3.0 | 0.7秒 | 0.04秒 | 0.5秒 | 0.02秒 | 1470ミリ秒 | 中くらい | 555ミリ秒 |
デバイスのパフォーマンスに応じて GUI でパラメータを調整できます。推論時間がブロック時間よりも短い限り、音声変換ストリームは適切に機能します。
他の GPU を集中的に使用するタスク (ゲーム、ビデオの視聴など) を実行している場合、推論速度が低下する可能性があることに注意してください。
一般的には品質の低下を防ぐためレイテンシは1~2秒程度ですが(拡散モデルの悲しい性質…?)、これを軽減する方法を模索し続けています。
(GUI とオーディオ チャンク ロジックは RVC から変更されています。素晴らしい実装に感謝します!)
リリースコード
リリース v0.1 事前トレーニング済みモデル:
ハグフェイス空間のデモ:
HTML デモ ページ (おそらく他の VC モデルとの比較): デモ
ストリーミング推論
ストリーミング推論の遅延を削減する
リアルタイム音声変換のデモビデオ
歌声変換
ソースおよびリファレンスオーディオの耐ノイズ性
ソースオーディオはノイズ耐性がある
アーキテクチャの改善の可能性
U-ViT スタイルのスキップ接続
入力を OpenAI Whisper に変更しました
カスタムデータのトレーニング用のコード
歌声デコードをNVIDIAのBigVGANに変更
歌声変換用ウィスパーバージョンモデル
歌声変換におけるRVC/SoVITSとの客観的な評価と比較
オーディオ品質を向上させる
さらに追加予定
2024-10-28:
音質を向上させ、微調整された 44k 歌声変換モデルをアップデート
2024-10-27:
リアルタイム音声変換GUIを追加
2024 年 10 月 25 日:
歌声変換の徹底評価結果とRVCv2との比較を追加
2024 年 10 月 24 日:
音声コンテンツ入力として OpenAI Whisper を使用した、44kHz 歌声変換モデルの更新
2024-10-07:
v0.3 事前トレーニング モデルを更新し、音声コンテンツ エンコーダーを OpenAI Whisper に変更しました。
v0.3 事前学習済みモデルの客観的な評価結果を追加
2024-09-22:
NVIDIA の BigVGAN を使用するように歌声変換モデルを更新し、高音の歌声を大幅に改善しました
Web UI で長いオーディオ ファイルのチャンキングとストリーミング出力をサポート
2024-09-18:
歌声変換用の f0 条件付けモデルを更新しました
2024-09-14:
更新された v0.2 事前トレーニング モデル。同じ品質を達成するためにサイズが小さくなり、拡散ステップが減り、韻律保存を制御する機能が追加されました。
コマンドライン推論スクリプトを追加しました
インストールと使用方法の説明を追加しました