ai voice cloning下载 - ai voice cloning源码下载

ai voice cloning

其他源码

v3.0

下载

AI语音克隆

请注意，我不打算积极致力于此项目的改进/增强，这主要是为了在原始 git.ecker 出现故障或需要进行必要的包更改的情况下使存储库保持在工作状态。

话虽如此，与原始存储库相比，添加了一些增强功能：

✔️ 可以用其他语言进行培训

✔️ 添加了 Hifigan，可以以牺牲质量为代价实现更快的推理。

✔️ 添加 Whisper-v3 作为 Whisperx 的可选选项

✔️ 使用 RVC 进行输出转换

这是最初位于此处的存储库的分支：https://git.ecker.tech/mrq/ai-voice-cloning。所有将 DLAS 训练和 Tortoise 推理相结合的工作都属于 mrq，他是原始 ai-voice-cloning 存储库的作者。

设置

此存储库适用于具有 NVIDIA GPU 的 Windows和运行具有 NVIDIA GPU 的 Docker 的 Linux 。

Windows 软件包（推荐）

可选，但建议：在计算机上安装 7zip：https://www.7-zip.org/
- 如果您遇到任何提取问题，很可能是由于您的 7zip 已过时或者您正在使用不同的提取器。
前往发布选项卡并下载 Hugging Face 上的最新软件包：https://github.com/JarodMica/ai-voice-cloning/releases/tag/v3.0
解压缩 7zip 存档。
打开 ai-voice-cloning 然后运行start.bat

替代手动安装

如果您手动安装，您将需要：

Python 3.11：https://www.python.org/downloads/release/python-311/
Git：https://www.git-scm.com/downloads

克隆存储库

 git clone https://github.com/JarodMica/ai-voice-cloning.git

运行setup-cuda.bat文件，它将开始运行所需的所有 python 包
- 如果你没有 python 3.11，它将无法工作，你需要去下载它
完成后，运行start.bat ，这将开始下载您需要的大部分模型。
- 有些模型是在您第一次使用时下载的。在生成期间和训练时（用于耳语），您将需要额外的下载。但是，一旦完成，只要不删除它们，您就不必再次下载它们。它们位于根目录的models文件夹中。
（可选）您可以选择通过运行setup-whipserx.bat安装 Whipserx 进行训练
- 查看 Whisperx github 页面了解更多详细信息，但对于较长的音频文件来说速度要快得多。如果您正在使用已分割的数据集进行逐一处理，则速度不会提高太多。

适用于 Linux（或 WSL2）的 Docker

Linux 特定设置

确保安装了最新的 nvidia 驱动程序： sudo ubuntu-drivers install
按照您喜欢的方式安装 Docker。一种方法是遵循此处的官方文档。
- 首先卸载旧版本
- 遵循“apt”存储库安装方法
- 检查“hello-world”容器是否一切正常
如果在启动语音克隆 docker 时出现错误消息，提示无法使用 GPU，则可能需要安装 Nvidia Docker Container Toolkit。
- 使用“apt”方法安装
- 运行docker配置命令
  sudo nvidia-ctk runtime configure --runtime=docker
- 重启docker

Windows 特定设置

确保您的 Nvidia 驱动程序是最新的：https://www.nvidia.com/download/index.aspx

使用wsl --install并重新启动在 PowerShell 中安装 WSL2
打开 PowerShell，键入并输入ubuntu 。现在应该将您加载到 wsl2
删除原来的 nvidia 缓存密钥： sudo apt-key del 7fa2af80
下载 CUDA 工具包密钥环： wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
安装密钥环： sudo dpkg -i cuda-keyring_1.1-1_all.deb
更新包列表： sudo apt-get update
安装 CUDA 工具包： sudo apt-get -y install cuda-toolkit-12-4
使用 WSL2 作为后端安装 Docker Desktop
重新启动
如果您希望通过 SSH 远程监控终端，请遵循本指南。
打开 PowerShell，输入ubuntu ，然后按照以下步骤操作

在 Docker 中构建和运行

打开终端（或 Ubuntu WSL）
克隆存储库： git clone https://github.com/JarodMica/ai-voice-cloning.git && cd ai-voice-cloning
使用./setup-docker.sh构建镜像
使用./start-docker.sh启动容器
访问http://localhost:7860或使用http://<ip>:7860远程访问

如果无法访问远程服务器，请查看此线程

您可能还需要将本地文件夹重新映射到 Docker 文件夹。为此，您必须打开“start-docker.sh”脚本，并更新一些行。例如，如果您想轻松找到生成的音频，请在根目录中创建一个“results”文件夹，然后在“start-docker.sh”中添加以下行：

-v "your/custom/path:/home/user/ai-voice-cloning/results"

指示

查看 YouTube 视频：

首先观看：https://youtu.be/WWhNqJEmF9M?si=RhUZhYersAvSZ4wf

第二次观看（RVC 更新）：https://www.youtube.com/watch?v=7tpWH8_S8es&t=504s

如果您过去使用过此存储库，一切都与以前几乎相同，但是，有一个新选项可以使用rvc转换文本输出。在使用它之前，您需要从 RVC 或在线获取经过训练的RVC .pth 文件，然后需要将其放置在models/rvc_models/中。 .index 和 .pth 文件都可以放置在此处，它们将在各自的下拉菜单中正确显示。

启用 rvc：

选中并启用Show Experimental Settings以显示更多选项
检查并启用Run the outputter audio through RVC 。您现在可以访问可在 RVC 中针对您正在使用的 RVC 语音模型进行调整的参数。

更新您的安装

以下是如何更新软件包以获取最新更新

视窗

注意：如果有重大功能更改，请检查最新版本以查看update_package.bat是否有效。如果没有，您将需要从 Hugging Face 重新下载并重新解压软件包。

运行update_package.bat文件
- 它将克隆存储库并将 src 文件夹从存储库复制到包中。

替代手动安装

您应该能够导航到该文件夹，然后拉取存储库来更新它。

 cd ai-voice-cloning
git pull

如果添加了大型功能，您可能需要删除 venv 并重新运行 setup-cuda 脚本以确保不存在软件包问题

通过 Docker 实现 Linux

您应该能够导航到该文件夹，然后拉取存储库来更新它，然后重建您的 Docker 映像。

 cd ai-voice-cloning
git pull
./setup-docker.sh

文档

手动安装故障排除

终端是你的朋友。当您尝试运行时，任何错误或问题都会在终端中弹出，然后您可以从那里开始调试。

如果在此过程中的某个地方，Torch 出现问题，您可能需要重新安装它。您必须将其卸载，然后重新安装，如下所示。请务必键入 (Y) 以确认删除。

 .venvScriptsactivate.bat
pip uninstall torch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

错误报告

如果您遇到任何问题，请在问题选项卡上打开新问题。

给开发者的建议

setup-cuda.bat应该包含安装软件包所需的一切。所有不同的需求文件使得脚本中变得非常混乱，但是每个存储库都安装了它们的需求，最后，需要根目录中的requirements.txt将版本更改回该存储库的兼容版本。

展开

附加信息

版本 v3.0
类型其他源码
更新时间 2024-12-30
大小 17.38MB
来自于 Github

ai voice cloning

AI语音克隆

设置

Windows 软件包（推荐）

替代手动安装

适用于 Linux（或 WSL2）的 Docker

Linux 特定设置

Windows 特定设置

在 Docker 中构建和运行

指示

更新您的安装

视窗

替代手动安装

通过 Docker 实现 Linux

文档

手动安装故障排除

错误报告

给开发者的建议

GLM 4 Voice

Retrieval based Voice Conversion WebUI

人工智能创造者

贾斯珀人工智能

外星人人工智能

GOOGLE VOICE无限短信接口

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

termwind

wp functions