Автономный конвейер для изменения голосов с использованием любой модели голоса AI, обученной RVC v2. Этот инструмент можно использовать для преобразования голоса к любому аудиовходу.
WebUI постоянно развивается и тестируется, но вы можете опробовать его прямо сейчас на локальном компьютере!
Установите и извлеките все новые требования и изменения, открыв окно командной строки в каталоге RVC-v2-UI
и выполнив следующие команды.
pip install -r requirements.txt git pull
Для пользователей Colab просто нажмите Runtime
в верхней панели навигации записной книжки Colab и Disconnect and delete runtime
в раскрывающемся меню. Затем следуйте инструкциям в блокноте, чтобы запустить webui.
(Надеюсь, скоро появится)
Следуйте инструкциям здесь, чтобы установить Git на свой компьютер. Также следуйте этому руководству, чтобы установить Python ВЕРСИИ 3.9, если вы еще этого не сделали. Использование других версий Python может привести к конфликтам зависимостей.
Альтернативно вы можете использовать pyenv для управления версиями Python:
Установите pyenv, следуя инструкциям здесь.
Установите Python 3.9:
pyenv install 3.9
Установите его как локальную версию Python:
pyenv local 3.9
Следуйте инструкциям здесь, чтобы установить ffmpeg на свой компьютер.
Откройте окно командной строки и запустите эти команды, чтобы клонировать весь репозиторий, создать виртуальную среду и установить необходимые дополнительные зависимости.
git clone https://github.com/PseudoRAM/RVC-v2-UI cd RVC-v2-UI
pyenv exec python -m venv venv
python -m venv venv
venvScriptsactivate
source venv/bin/activate
pip install -r requirements.txt
Выполните следующую команду, чтобы загрузить необходимую базовую модель Хьюберта.
python src/download_models.py
Чтобы запустить веб-интерфейс RVC Voice Changer, выполните следующую команду.
python src/webui.py
Флаг | Описание |
---|---|
-h , --help | Покажите это справочное сообщение и выйдите. |
--share | Создайте общедоступный URL-адрес. Это полезно для запуска веб-интерфейса в Google Colab. |
--listen | Сделайте веб-интерфейс доступным из вашей локальной сети. |
--listen-host LISTEN_HOST | Имя хоста, которое будет использовать сервер. |
--listen-port LISTEN_PORT | Порт прослушивания, который будет использовать сервер. |
Когда появится следующее выходное сообщение Running on local URL: http://127.0.0.1:7860
, вы можете щелкнуть ссылку, чтобы открыть вкладку с веб-интерфейсом.
Перейдите на вкладку Download model
, вставьте ссылку для скачивания на модель RVC и присвойте ей уникальное имя. Вы можете выполнить поиск в Discord AI Hub, где уже доступны для скачивания уже обученные модели голоса. Вы можете обратиться к примерам, чтобы узнать, как должна выглядеть ссылка для скачивания. Загруженный zip-файл должен содержать файл модели .pth и необязательный файл .index.
После заполнения двух полей ввода просто нажмите « Download
»! Как только в выходном сообщении будет написано [NAME] Model successfully downloaded!
, вы сможете использовать его на вкладке Convert Voice
после нажатия кнопки «Обновить модели»!
Для людей, которые локально обучили модели RVC v2 и хотели бы использовать их для преобразования голоса. Перейдите на вкладку Upload model
и следуйте инструкциям. Как только в выходном сообщении будет написано [NAME] Model successfully uploaded!
, вы сможете использовать его на вкладке Convert Voice
после нажатия кнопки «Обновить модели»!
В раскрывающемся меню «Модели голоса» выберите модель голоса, которую хотите использовать. Нажмите Refresh Models
, если вы вручную добавили файлы в каталог rvc_models, чтобы обновить список.
В поле «Входной звук» загрузите свой аудиофайл.
Отрегулируйте шаг по мере необходимости. Это изменяет высоту выходного голоса.
Другие дополнительные параметры преобразования голоса можно просмотреть, щелкнув стрелку гармошки, чтобы развернуть ее.
После того, как все параметры заполнены, нажмите Convert
, и через несколько секунд в зависимости от вашего графического процессора должен появиться голос, сгенерированный AI.
Чтобы запустить конвейер преобразования голоса с помощью командной строки, выполните следующую команду:
python src/main.py <input_audio> <rvc_model> [pitch] [f0_method] [index_rate] [filter_radius] [rms_mix_rate] [protect]
Параметр | Описание |
---|---|
input_audio | Путь к входному аудиофайлу. |
rvc_model | Имя используемой модели RVC. |
pitch | (Необязательно) Изменение высоты звука в полутонах. По умолчанию — 0. |
f0_method | (Необязательно) Алгоритм определения высоты тона. Варианты: «rmvpe» (по умолчанию) или «mangio-crepe». |
index_rate | (Необязательно) Индексная скорость преобразования голоса. По умолчанию — 0,5. Диапазон: от 0 до 1. |
filter_radius | (Необязательно) Радиус фильтра для медианной фильтрации. По умолчанию — 3. Диапазон: от 0 до 7. |
rms_mix_rate | (Необязательно) Среднеквадратическая скорость смешивания. По умолчанию — 0,25. Диапазон: от 0 до 1. |
protect | (Необязательно) Защитите скорость, чтобы сохранить некоторые оригинальные голосовые характеристики. По умолчанию — 0,33. Диапазон: от 0 до 0,5. |
Пример использования:
python src/main.py "path/to/input/audio.wav" "JohnDoe" 2 rmvpe 0.7 3 0.3 0.35
Эта команда преобразует голос в «audio.wav» с использованием модели RVC «JohnDoe», повышая высоту звука на 2 полутона, используя алгоритм определения высоты звука «rmvpe», с коэффициентом индекса 0,7, радиусом фильтра 3, миксом RMS. ставка 0,3 и ставка защиты 0,35.
Разархивируйте (при необходимости) и перенесите файлы .pth
и .index
в новую папку в каталоге rvc_models. Каждая папка должна содержать только один .pth
и один файл .index
.
Структура каталогов должна выглядеть примерно так:
├── rvc_models │ ├── John │ │ ├── JohnV2.pth │ │ └── added_IVF2237_Flat_nprobe_1_v2.index │ ├── May │ │ ├── May.pth │ │ └── added_IVF2237_Flat_nprobe_1_v2.index │ ├── MODELS.txt │ └── hubert_base.pt ├── voice_output └── src
Использование преобразованного голоса для следующих целей запрещено.
Критика или нападки на людей.
Пропаганда или противодействие конкретным политическим позициям, религиям или идеологиям.
Публичная демонстрация сильно стимулирующих выражений без надлежащего зонирования.
Продажа моделей голоса и сгенерированных голосовых клипов.
Выдача себя за первоначального владельца голоса со злонамеренными намерениями причинить вред другим.
Мошеннические цели, которые приводят к краже личных данных или мошенническим телефонным звонкам.
Я не несу ответственности за любой прямой, косвенный, косвенный, случайный или особый ущерб, возникший в результате или каким-либо образом связанный с использованием/неправильным использованием или невозможностью использования этого программного обеспечения.