RVC v2 でトレーニングされた AI 音声モデルを使用して音声を変更する自律パイプライン。このツールを使用すると、任意のオーディオ入力に音声変換を適用できます。
WebUI は継続的に開発とテストが行われていますが、ローカルで今すぐ試すことができます。
RVC-v2-UI
ディレクトリでコマンド ライン ウィンドウを開いて次のコマンドを実行することにより、新しい要件と変更をインストールおよびプルします。
pip install -r requirements.txt git pull
colab ユーザーの場合は、colab ノートブックの上部ナビゲーション バーでRuntime
をクリックし、ドロップダウン メニューでDisconnect and delete runtime
クリックするだけです。次に、ノートブックの指示に従って webui を実行します。
(近いうちに来るといいですね)
ここの手順に従って、コンピューターに Git をインストールします。まだインストールしていない場合は、このガイドに従って Pythonバージョン 3.9 をインストールします。他のバージョンの Python を使用すると、依存関係の競合が発生する可能性があります。
あるいは、pyenv を使用して Python のバージョンを管理することもできます。
ここの手順に従って pyenv をインストールします。
Python 3.9 をインストールします。
pyenv install 3.9
これをローカルの Python バージョンとして設定します。
pyenv local 3.9
ここの手順に従って、ffmpeg をコンピュータにインストールします。
コマンド ライン ウィンドウを開き、次のコマンドを実行して、このリポジトリ全体のクローンを作成し、仮想環境を作成し、必要な追加の依存関係をインストールします。
git clone https://github.com/PseudoRAM/RVC-v2-UI cd RVC-v2-UI
pyenv exec python -m venv venv
python -m venv venv
venvScriptsactivate
source venv/bin/activate
pip install -r requirements.txt
次のコマンドを実行して、必要な Hubert 基本モデルをダウンロードします。
python src/download_models.py
RVC ボイス チェンジャー WebUI を実行するには、次のコマンドを実行します。
python src/webui.py
フラグ | 説明 |
---|---|
-h 、 --help | このヘルプ メッセージを表示して終了します。 |
--share | パブリック URL を作成します。これは、Google Colab で Web UI を実行する場合に便利です。 |
--listen | ローカル ネットワークから Web UI にアクセスできるようにします。 |
--listen-host LISTEN_HOST | サーバーが使用するホスト名。 |
--listen-port LISTEN_PORT | サーバーが使用するリスニング ポート。 |
次の出力メッセージRunning on local URL: http://127.0.0.1:7860
が表示されたら、リンクをクリックして WebUI のタブを開くことができます。
Download model
タブに移動し、ダウンロード リンクを RVC モデルに貼り付け、一意の名前を付けます。 AI Hub Discord を検索すると、すでにトレーニングされた音声モデルをダウンロードできます。ダウンロード リンクがどのように表示されるかについては、例を参照してください。ダウンロードした zip ファイルには、.pth モデル ファイルとオプションの .index ファイルが含まれている必要があります。
2 つの入力フィールドに入力したら、 Download
クリックするだけです。出力メッセージに[NAME] Model successfully downloaded!
と表示されたら、 , [モデルを更新] ボタンをクリックすると、 Convert Voice
タブで使用できるようになります。
RVC v2 モデルをローカルでトレーニングしており、音声変換に使用したいと考えている人向け。 Upload model
タブに移動し、指示に従います。出力メッセージに[NAME] Model successfully uploaded!
と表示されたら、 , [モデルを更新] ボタンをクリックすると、 Convert Voice
タブで使用できるようになります。
[音声モデル] ドロップダウン メニューから、使用する音声モデルを選択します。ファイルを RVC_models ディレクトリに手動で追加してリストを更新した場合は、 Refresh Models
をクリックします。
「入力音声」フィールドで、音声ファイルをアップロードします。
必要に応じてピッチを調整します。出力される音声のピッチが変化します。
音声変換のその他の詳細オプションは、アコーディオン矢印をクリックして展開することで表示できます。
すべてのオプションを入力したら、 Convert
をクリックすると、GPU に応じて、数分以内に AI で生成された音声が表示されます。
コマンド ラインを使用して音声変換パイプラインを実行するには、次のコマンドを実行します。
python src/main.py <input_audio> <rvc_model> [pitch] [f0_method] [index_rate] [filter_radius] [rms_mix_rate] [protect]
パラメータ | 説明 |
---|---|
input_audio | 入力音声ファイルへのパス。 |
rvc_model | 使用する RVC モデルの名前。 |
pitch | (オプション) 半音単位でピッチを変更します。デフォルトは 0 です。 |
f0_method | (オプション) ピッチ検出アルゴリズム。オプション: 'rmvpe' (デフォルト) または 'mangio-crepe'。 |
index_rate | (オプション) 音声変換のインデックス レート。デフォルトは 0.5 です。範囲: 0 ~ 1。 |
filter_radius | (オプション) メディアン フィルタリングのフィルタ半径。デフォルトは 3 です。範囲: 0 ~ 7。 |
rms_mix_rate | (オプション) RMS ミックス レート。デフォルトは 0.25 です。範囲: 0 ~ 1。 |
protect | (オプション)元の音声特性の一部を維持するためにレートを保護します。デフォルトは 0.33 です。範囲: 0 ~ 0.5。 |
使用例:
python src/main.py "path/to/input/audio.wav" "JohnDoe" 2 rmvpe 0.7 3 0.3 0.35
このコマンドは、「JohnDoe」RVC モデルを使用して「audio.wav」の音声を変換し、「rmvpe」ピッチ検出アルゴリズムを使用して、インデックス レート 0.7、フィルター半径 3、RMS ミックスでピッチを 2 半音上げます。レート0.3、プロテクトレート0.35。
(必要に応じて) 解凍し、 .pth
ファイルと.index
ファイルを RVC_models ディレクトリ内の新しいフォルダーに転送します。各フォルダーには.pth
ファイルと.index
ファイルを 1 つだけ含める必要があります。
ディレクトリ構造は次のようになります。
├── rvc_models │ ├── John │ │ ├── JohnV2.pth │ │ └── added_IVF2237_Flat_nprobe_1_v2.index │ ├── May │ │ ├── May.pth │ │ └── added_IVF2237_Flat_nprobe_1_v2.index │ ├── MODELS.txt │ └── hubert_base.pt ├── voice_output └── src
変換した音声を以下の目的で使用することを禁止します。
個人を批判したり攻撃したりすること。
特定の政治的立場、宗教、またはイデオロギーを擁護または反対すること。
適切なゾーニングをせずに、刺激性の強い表現を公に公開する行為。
音声モデルと生成された音声クリップの販売。
他者を傷つける悪意のある意図を持って、声の元の所有者になりすます。
個人情報の盗難や詐欺電話につながる詐欺目的。
私は、このソフトウェアの使用/誤用、または使用不能から生じる、または何らかの形で関連する、直接的、間接的、結果的、偶発的、または特別な損害に対して責任を負いません。