注:このプロジェクトの改善/拡張に積極的に取り組む予定はありません。これは主に、元の git.ecker がダウンした場合や必要なパッケージ変更が必要な場合に備えて、リポジトリを動作状態に保つことを目的としています。
そうは言っても、元のリポジトリと比較していくつかの機能強化が追加されました。
✔️他言語でのトレーニングも可能
✔️ Hifigan が追加され、品質を犠牲にしてより高速な推論が可能になります。
✔️ Whisperx の選択可能なオプションとして Whisper-v3 が追加されました
✔️ RVC を使用した出力変換
これは、もともとここにあったリポジトリのフォークです: https://git.ecker.tech/mrq/ai-voice-cloning。 DLAS によるトレーニングと Tortoise による推論を組み込むために投入されたすべての作業は、元の AI 音声クローン リポジトリの作成者である mrq に属します。
このリポジトリは、 NVIDIA GPU を搭載した Windows と、 NVIDIA GPU を搭載した Docker を実行している Linuxで動作します。
start.bat
実行します。 これを手動でインストールする場合は、以下が必要になります。
git clone https://github.com/JarodMica/ai-voice-cloning.git
setup-cuda.bat
ファイルを実行すると、必要なすべての Python パッケージの実行が開始されます。start.bat
を実行すると、必要なほとんどのモデルのダウンロードが開始されます。models
フォルダーにあります。setup-whipserx.bat
を実行して、トレーニング用に Whisperx をインストールすることを選択できます。最新の nvidia ドライバーがインストールされていることを確認します: sudo ubuntu-drivers install
好みの方法で Docker をインストールします。これを行う 1 つの方法は、こちらの公式ドキュメントに従うことです。
音声クローン Docker を起動するときに、GPU を使用できないというエラー メッセージが表示される場合は、Nvidia Docker Container Toolkit をインストールする必要がある可能性があります。
「apt」方式でインストールする
docker 設定コマンドを実行する
sudo nvidia-ctk runtime configure --runtime=docker
ドッカーを再起動します
Nvidia ドライバーが最新であることを確認してください: https://www.nvidia.com/download/index.aspx
wsl --install
を使用して PowerShell に WSL2 をインストールし、再起動しますubuntu
と入力します。 wsl2 にロードされるはずですsudo apt-key del 7fa2af80
wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-4
ubuntu
と入力し、以下に従ってくださいgit clone https://github.com/JarodMica/ai-voice-cloning.git && cd ai-voice-cloning
./setup-docker.sh
を使用してイメージをビルドします./start-docker.sh
でコンテナを起動します。http://localhost:7860
にアクセスするか、 http://<ip>:7860
を使用してリモートにアクセスします。リモートサーバーにアクセスできない場合は、このスレッドをチェックアウトしてください
ローカル フォルダーを Docker フォルダーに再マップする必要がある場合もあります。これを行うには、「start-docker.sh」スクリプトを開き、いくつかの行を更新する必要があります。たとえば、生成されたオーディオを簡単に見つけたい場合は、ルート ディレクトリに「results」フォルダーを作成し、「start-docker.sh」に次の行を追加します。
-v "your/custom/path:/home/user/ai-voice-cloning/results"
YouTube ビデオをチェックしてください。
最初に見る: https://youtu.be/WWhNqJEmF9M?si=RhUZhYersAvSZ4wf
Watch Second (RVC アップデート): https://www.youtube.com/watch?v=7tpWH8_S8es&t=504s
過去にこのリポジトリを使用したことがある場合は、すべてが以前とほぼ同じですが、 rvc
使用してテキスト出力を変換する新しいオプションがあります。これを使用する前に、RVC またはオンラインから取得したトレーニング済みのRVC .pth ファイルが必要になり、それをmodels/rvc_models/
に配置する必要があります。 .index ファイルと .pth ファイルの両方をここに配置すると、それぞれのドロップダウン メニューに正しく表示されます。
RVC を有効にするには:
Show Experimental Settings
にチェックを入れて有効にすると、さらにオプションが表示されますRun the outputter audio through RVC
チェックして有効にします。これで、使用している RVC 音声モデルに合わせて RVC で調整できるパラメータにアクセスできるようになります。 最新のアップデートに合わせてパッケージを更新する方法は以下のとおりです
注:大きな機能変更がある場合は、最新リリースをチェックして、
update_package.bat
が機能するかどうかを確認してください。そうでない場合は、Hugging Face からパッケージを再ダウンロードして再抽出する必要があります。
update_package.bat
ファイルを実行します。フォルダーに移動して、リポジトリを取得して更新できるはずです。
cd ai-voice-cloning
git pull
大規模な機能が追加されている場合は、venv を削除し、setup-cuda スクリプトを再実行して、パッケージに問題がないことを確認する必要がある場合があります。
フォルダーに移動してリポジトリを取得して更新し、Docker イメージを再構築できるはずです。
cd ai-voice-cloning
git pull
./setup-docker.sh
端末はあなたの友達です。実行しようとすると、エラーや問題がターミナルにポップアップ表示され、そこからデバッグを開始できます。
.venvScriptsactivate.bat
pip uninstall torch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
問題が発生した場合は、[問題] タブで新しい問題を開いてください。
setup-cuda.bat
パッケージのインストールに必要なものがすべて含まれている必要があります。さまざまな要件ファイルがあるため、スクリプトはかなり混乱しますが、各リポジトリにはそれぞれの要件がインストールされており、最後に、バージョンをこのリポジトリと互換性のあるバージョンに戻すためにルートにあるrequirements.txt
が必要になります。