Скачать ai voice cloning - ai voice cloning Скачать исходный код

ai voice cloning

Другой исходный код

v3.0

Скачать

Клонирование голоса с помощью искусственного интеллекта

Примечание. Я не планирую активно работать над улучшениями/улучшениями этого проекта, это в основном предназначено для поддержания репозитория в рабочем состоянии на случай, если исходный git.ecker выйдет из строя или необходимо внести необходимые изменения в пакет.

При этом были добавлены некоторые улучшения по сравнению с исходным репозиторием:

✔️ Возможно обучение на других языках

✔️ Добавлен Хифиган, позволяющий быстрее делать выводы за счет качества.

✔️ шепот-v3 добавлен в качестве опции для выбора для шепота

✔️ Преобразование вывода с использованием RVC

Это форк репозитория, который изначально находился здесь: https://git.ecker.tech/mrq/ai-voice-cloning. Вся работа, которая была вложена в него для включения обучения с помощью DLAS и вывода с помощью Tortoise, принадлежит mrq, автору оригинального репозитория для клонирования голоса ai-voice.

Настраивать

Этот репозиторий работает в Windows с графическими процессорами NVIDIA и в Linux с Docker с графическими процессорами NVIDIA .

Пакет Windows (рекомендуется)

Необязательно, но рекомендуется: установите 7zip на свой компьютер: https://www.7-zip.org/.
- Если у вас возникнут какие-либо проблемы с извлечением, скорее всего, это связано с тем, что ваш 7zip устарел ИЛИ вы используете другой экстрактор.
Перейдите на вкладку «Релизы» и загрузите последний пакет Hugging Face: https://github.com/JarodMica/ai-voice-cloning/releases/tag/v3.0
Распакуйте архив 7zip.
Откройте ai-voice-cloning и запустите start.bat

Альтернативная ручная установка

Если вы устанавливаете это вручную, вам понадобится:

Python 3.11: https://www.python.org/downloads/release/python-311/
Гит: https://www.git-scm.com/downloads

Клонировать репозиторий

 git clone https://github.com/JarodMica/ai-voice-cloning.git

Запустите файл setup-cuda.bat , и он начнет работать со всеми необходимыми пакетами Python.
- Если у вас нет Python 3.11, он не будет работать, и вам придется его скачать.
После его завершения запустите start.bat , и начнется загрузка большинства необходимых вам моделей.
- Некоторые модели загружаются при первом использовании. Вы будете нести дополнительные загрузки во время генерации и во время обучения (для шепота). Однако, как только они будут завершены, вам больше никогда не придется загружать их, если вы их не удалите. Они находятся в папке models в корне.
(Необязательно) Вы можете установить для обучения vanilla, запустив setup-whipserx.bat
- Более подробную информацию можно найти на странице GitHub шепота, но для более длинных аудиофайлов это происходит намного быстрее. Если вы обрабатываете один за другим уже разделенный набор данных, это не сильно улучшит скорость.

Докер для Linux (или WSL2)

Специальная настройка Linux

Убедитесь, что установлены последние версии драйверов NVIDIA: sudo ubuntu-drivers install
Установите Docker удобным вам способом. Один из способов сделать это — следовать официальной документации здесь.
- Начните с удаления старых версий
- Следуйте методу установки репозитория «apt».
- Убедитесь, что с контейнером «hello-world» все работает.
Если при запуске докера для голосового клонирования появляется сообщение об ошибке, в котором говорится, что графический процессор не может быть использован, возможно, вам придется установить Nvidia Docker Container Toolkit.
- Установить методом «apt»
- Запустите команду настройки докера.
  sudo nvidia-ctk runtime configure --runtime=docker
- Перезапустить докер

Специальная настройка Windows

Убедитесь, что ваши драйверы Nvidia обновлены: https://www.nvidia.com/download/index.aspx

Установите WSL2 в PowerShell с помощью wsl --install и перезапустите.
Откройте PowerShell, введите и введите ubuntu . Теперь он должен загрузить вас в wsl2.
Удалите исходный ключ кэша NVIDIA: sudo apt-key del 7fa2af80
Загрузите набор ключей набора инструментов CUDA: wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
Установите связку ключей: sudo dpkg -i cuda-keyring_1.1-1_all.deb
Обновить список пакетов: sudo apt-get update
Установите набор инструментов CUDA: sudo apt-get -y install cuda-toolkit-12-4
Установите Docker Desktop, используя WSL2 в качестве серверной части.
Перезапуск
Если вы хотите удаленно контролировать терминал через SSH, следуйте этому руководству.
Откройте PowerShell, введите ubuntu и следуйте инструкциям ниже.

Сборка и запуск в Docker

Откройте терминал (или Ubuntu WSL)
Клонируйте репозиторий: git clone https://github.com/JarodMica/ai-voice-cloning.git && cd ai-voice-cloning
Создайте образ с помощью ./setup-docker.sh
Запустите контейнер с помощью ./start-docker.sh
Посетите http://localhost:7860 или удаленно с помощью http://<ip>:7860

Если удаленный сервер недоступен, проверьте эту тему

Вам также может потребоваться переназначить локальные папки на папки Docker. Для этого необходимо открыть скрипт start-docker.sh и обновить некоторые строки. Например, если вы хотите легко найти сгенерированные аудио, создайте папку «results» в корневом каталоге, а затем в «start-docker.sh» добавьте строку:

-v "your/custom/path:/home/user/ai-voice-cloning/results"

Инструкции

Посмотрите видео на YouTube:

Сначала посмотрите: https://youtu.be/WWhNqJEmF9M?si=RhUZhYersAvSZ4wf

Смотреть второе (обновление RVC): https://www.youtube.com/watch?v=7tpWH8_S8es&t=504s

Все практически так же, как и раньше, если вы использовали этот репозиторий раньше, однако появилась новая опция для преобразования текстового вывода с помощью rvc . Прежде чем вы сможете его использовать, вам понадобится обученный файл RVC .pth, который вы получите из RVC или онлайн, а затем вам нужно будет поместить его в models/rvc_models/ . Здесь можно разместить файлы .index и .pth, и они будут правильно отображаться в соответствующих раскрывающихся меню.

Чтобы включить RVC:

Установите флажок и включите Show Experimental Settings чтобы открыть дополнительные параметры.
Установите флажок и включите Run the outputter audio through RVC . Теперь у вас будет доступ к параметрам, которые вы можете настроить в RVC для используемой вами модели голоса RVC.

Обновление вашей установки

Ниже описано, как обновить пакет до последних обновлений.

Окна

ПРИМЕЧАНИЕ. Если произошли серьезные изменения функций, проверьте последнюю версию, чтобы узнать, будет ли работать update_package.bat . Если НЕТ, вам придется повторно загрузить и повторно извлечь пакет из Hugging Face.

Запустите файл update_package.bat
- Он клонирует репозиторий и скопирует папку src из репозитория в пакет.

Альтернативная ручная установка

У вас должна быть возможность перейти в папку, а затем извлечь репозиторий, чтобы обновить его.

 cd ai-voice-cloning
git pull

Если добавлены большие функции, вам может потребоваться удалить venv и повторно запустить сценарий setup-cuda, чтобы убедиться в отсутствии проблем с пакетом.

Линукс через Докер

У вас должна быть возможность перейти в папку, а затем извлечь репозиторий, чтобы обновить его, а затем восстановить образ Docker.

 cd ai-voice-cloning
git pull
./setup-docker.sh

Документация

Устранение неполадок при ручной установке

Терминал — ваш друг. Любые ошибки или проблемы будут появляться в терминале, когда вы попытаетесь запустить его, а затем оттуда можно будет начать отладку.

Если где-то в процессе фонарик сломается, возможно, вам придется его переустановить. Вам придется удалить его, а затем переустановить, как показано ниже. Обязательно введите (Y), чтобы подтвердить удаление.

 .venvScriptsactivate.bat
pip uninstall torch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Отчеты об ошибках

Если у вас возникнут какие-либо проблемы, откройте новую проблему на вкладке «Проблемы».

Советы разработчикам

setup-cuda.bat должен содержать все необходимое для установки пакетов. Все различные файлы требований создают беспорядок в сценарии, но в каждом репозитории установлены свои требования, а затем, в конце, файл requirements.txt в корне необходим для изменения версии обратно на совместимые версии для этого репозитория.

Расширять

Дополнительная информация