Vietnamese RVC

VC/VC++ 2025-08-09

Vietnamese RVC ANH

简单质量和高性能的语音转换工具。

描述

该项目是一个简单,容易使用的语音转换工具。为了创建高质量和最佳的产品转换产品,该项目允许用户自然地平稳地更改语音。

项目的功能

  • 音乐分离(MDX-NET/DEMUCS)

  • 语音转换(文件转换 /质量转换 /低语 /文本转换)

  • 对音频应用效果

  • 创建培训数据(从链接路径)

  • 模型培训(V1/V2,高质量套件,能源培训)

  • 模型组合

  • 阅读模型信息

  • 导出到ONNX

  • 从可用模型仓库下载

  • 从网络搜索模型

  • 提取高度

  • 通过ONNX模型支持音频转换推理

  • ONNX RVC模型还将支持索引推断

提取高度的方法: pm-ac, pm-cc, pm-shs, dio, mangio-crepe-tiny, mangio-crepe-small, mangio-crepe-medium, mangio-crepe-large, mangio-crepe-full, crepe-tiny, crepe-small, crepe-medium, crepe-large, crepe-full, fcpe, fcpe-legacy, rmvpe, rmvpe-legacy, harvest, yin, pyin, swipe, piptrack, fcn

提取物模型: contentvec_base, hubert_base, vietnamese_hubert_base, japanese_hubert_base, korean_hubert_base, chinese_hubert_base, portuguese_hubert_base, spin

  • 提取模型以嵌入式模式(例如Fairseq,ONNX,Transformers,Spin)提供。
  • 提取高度的模型具有ONNX加速版本,除了周围的操作方法。
  • 可以将高程提取物模型组合在一起以创造一种新的感觉,例如: hybrid[rmvpe+harvest]
  • 自动高水平将消耗一些资源来计算模型属性,并给出阈值以计算高度以增加和减小的阈值。

使用说明

如果我真的有空的话会有...

环境

步骤1:安装必要的辅助部件

  • 从主页安装Python: Python (该项目已在Python 3.10.x和3.11.x上进行了测试)
  • 从源安装FFMPEG并添加到系统路径: ffmpeg

步骤2:设置项目(使用git或简单地在github上下载)

用于git:

  • git克隆https://g**ithub.c*om/phamhuynhanh16/vietnameses-rvc.git
  • CD越南RVC

使用github安装:

  • 访问https://git*h*ub.co*m/phamhuynhanh16/vietnames-rvc
  • 单击<> Code选择Download ZIP
  • 提取Vietnamese-RVC-main.zip
  • 转到越南RVC-Main文件夹以选择进入cmd路径栏,然后按Enter

步骤3:安装必要的库:

输入命令:

 python -m venv env
env\\Scripts\\activate

安装不同的设备

对于CPU
 python -m pip install -r requirements.txt
对于库达

如果GPU支持:

 python -m pip install torch torchaudio torchvision --index-url https://download.py*t**orch.org/whl/cu118
python -m pip install -r requirements.txt
对于AMD
 python -m pip install torch==2.6.0 torchaudio==2.6.0 torchvision
python -m pip install https://*github*.c*om/artyom-beilis/pytorch_dlprim/releases/download/0.2.0/pytorch_ocl-0.2.0+torch2.6-cp311-none-win_amd64.whl
python -m pip install onnxruntime-directml
python -m pip install -r requirements.txt

注意AMD:

  • 仅在Python 3.11上安装AMD,因为DLPRIM没有Python 3.10的版本,带有Torch 2.6.0。
  • DEMUC可以超载并溢出GPU(如果需要使用DEMUC,请在Main \ Configs中打开Config.json文件以将DEMUCS_CPU_MODE编辑为true)。
  • DDP不支持OPENCC(AMD)的多GPU培训。
  • 其他一些算法必须在CPU上运行,因此GPU性能可能不会用完。

使用

与Google Colab一起使用

  • 打开Google Colab:越南RVC
  • 步骤1:运行安装框并等待完成。
  • 步骤2:运行框以打开用户界面(然后接口将打印2个链接1为0.0.0.0.7680,可以单击1个gradio路径,您选择单击路径,它将带您进入接口)。

运行run_app文件以打开用户界面,运行张量板文件以打开训练测试图表。 (注意:请勿关闭命令提示或终端)

 run_app.bat / tensorboard.bat

启动用户界面。 (在命令中添加--allow_all_disk ,以允许对外部文件访问Gradio)

 env\\Scripts\\python.exe main\\app\\app.py --open

如果您使用张板检查培训

 env\\Scripts\\python.exe main/app/run_tensorboard.py

使用语法

 python main\\app\\parser.py --help

简单安装,使用

安装越南语的版本版本

  • 选择适合您的正确版本并下载。
  • 项目提取物。
  • 运行run_app.bat文件以打开操作接口。

使用run_install.bat文件

  • 将源代码下载到设备。
  • 项目提取物。
  • 运行run_install.bat文件开始安装。
  • 运行run_app.bat文件以打开操作接口。

源代码的主要结构:

单击查看
越南RVC-Main
├ - 资产
││├勤自动
│││├站
RVC_FEATS.NPZ
│├├─..-二进制
││││站
││└│站
F0
││├-语言
│││├站
Vi-vn.json
│├│站
│││└站静音
│││├站 - 能量
││││└站ute.wav.npy
F0
││││└站ute.wav.npy
F0_VOCED
││││└站ute.wav.npy
│││├站
││││├│早32000.WAV
sute40000.wav
sute400.wav
│││├─-切片_AUDIOS_16K
│││││站ute.wav
││││站
sute.npy
││││├站ute_chines.npy
││││├站点mute_japanese.npy
││││├├早mute_korean.npy
│││││站ute_portuguese.npy
│││││站ute_vietnameses.npy
│││└└站ute_spin.npy
││││站
││├││早。
││││├早mute_chines.npy
│││├├站
│││││站
│││├│站
│││├├站
│││││早了
││├前
│││├站
│││├站
Pretsreed_custom
Pretsreed_v1
Pretsreed_v2
speaker_diarization
资产
│││├├├├─gpt2
│││├├─-mel_filters.npz
││││└└ - ─│└└└└└
模型
UVR5
││├前预设
重量
ICO.PNG
├ - 澳元
├ - 数据集
├ - 主要
││├─papp
Core
CSRT.PY
││││├站下载。
│││├├站
F0_Extract.py
││││├penperion.py.py
││││├站型
│││││站。
│││├│─process.pypy
│││││站点restart.pypy
│││││站分开。
│││││站训练.py
tts.py
UI.Py.py
││││└站
tabs
下载
││││└└└早ploads.pys.py
编辑
││││├├─-editing.py
儿童
││││├ -  ugio_effects.py
││││└ -  Quirk.py
││├├├站
││││├ -  extra.pypy
儿童
││││├├─-create_srt.py
││││├-convert_model.py
F0_Extract.py
fushion.py
││││├├─-read_model.py
││││└└─-settings.py
推理
│││├├├penper.py.py
儿童
││││├├─-convert.pypy
││││├├届convert─convert convert convert tts.py
││││├├├─Convert_with_whisper.py
│││└│└─..py
││└│└站训练
│││││站训练.py
儿童
│││││早:create_dataset.py
│││││站训练.py
│││├站app.py
Parser.py parser.py
││││├早run_tensorboard.py
││││─..py.py.py
│││─-configs
││││─-config.json
││││─ponfig.pypy
RPC.PY
V1
32000.JSON
40000.JSON
48000.JSON
V2
32000.JSON
││││站40000.JSON
│││└─..48000.JSON
││├├-推断
Audio_effects.py
│││├─-create_dataset.py
││├│─..createx.pypy
│││├站
提取
││││├站。py.py
│││││─-提取物.py
││││├站
│││├├站preading_files.py
RMS.Py
senup_path.pypy
││││站训练
train.py py
│││││站data_utils.py
│││├│─-损失。
Mel_processing.py
││││└站
转换
│││├│站convert.pypy
Pipeline.py
││││└站
││││站
Preproses.py precroses.py
slicer2.py
│││─图图书馆
│││├站
│││├站
│││站算法
Autopitch.py
│││├│站。
Compon.py
││├│├站。
│││├│站
│││├│站。
│││││站归一试。
││││├站
│││││站。
│││││─-stfftphift.py
sonthesizer.py
建筑
││││ -  demucs_syprarator.py
fairseq.py
MDX_SEPARATOR.PY
││││├├-发电机
Hifigan.py
Mrf_hifigan.py
NSF_HIFIGAN.PY
│││││站
│││├站
│││├站
│││├│├─-crepe.py
│││││├─..py.py.py
│││└└└└─py.py.py
FCN
fcn.py
││││├├─-convert.pypy
│││└└└└─py.py.py
FCPE
││││├├─pententions.py
│││├│├─..coder.py.py
fcpe.py
│││├├├─Stft.py
││││├├├pys.pyspy
│││└└└└─pav2mel.py
RMVPE
RMVPE.PY
│││├│ -  deepunet.py
│││├├─-e2e.py
Mel.py
世界世界
│││├├├站
swip.py.py
│││└│站
speaker_diarization
Audio.py
ECAPA_TDNN.PY
││││├站。py.py
│││││站
││││├─pheration.py.py
││││├─parameter_transfer.py
segment.py.py
│││││站
│││││站
UVR5_LIB
││││站
││├│站
││││─-spec_utils.py
demucs
│││├├站
demucs.py
││││站是hdemucs.py
││││站htdemucs.py
││││─— state.py
│││└站
工具
│├├前Gdowown.py
││├├-huggingface.py
│││站是mediafire.py
Meganz.py
││├站
Pixeldrain.py
├ - ─docker-compose-amd.yaml
├ - ─docker-compose-cpu.yaml
├─..-docker-compose-cuda118.yaml
├ - ─docker-compose-cuda128.yaml
├─....dockerfile
├ -  dockerfile.amd
├ -  dockerfile.cuda118
├ - ─dockerfile.cuda128
├前许可证
├├前
├ - ─txt
├├─run_app.bat
├─-run_install.bat
└前张板.bat

笔记

  • 目前,新的加密套件(例如MRF Hifigan)仍然没有以前的培训集
  • MRF Hifigan和Refinegan编码器不支持未经高级培训的培训
  • 功能培训可以提高模型的质量,但没有此功能的第一个培训模型
  • 越南RVC存储中的模型散布在AI枢纽,拥抱面和其他档案中。可以携带不同的版权许可证

赔偿责任声明

  • 越南RVC项目是为了研究,学习和个人娱乐而开发的。我不鼓励或不承担任何滥用语音转换技术的行为,以实现欺诈,虚假身份或侵犯任何个人或组织的隐私和版权。

  • 用户需要负责使用该软件,并承诺遵守其居住或运营的当前法律。

  • 使用名人,真实的人或公共角色的声音必须有许可或保证不要违反所涉当事方的法律,道德和利益。

  • 该项目的作者对使用本软件带来的任何后果并不是合法的责任。

使用条款

  • 您必须确保您上传的音频内容并通过此项目进行转换不会侵犯第三方的知识产权。

  • 不允许将该项目用于任何非法活动,包括但不限于作弊,骚扰或伤害他人。

  • 您对产品不当使用而造成的任何损害都完全负责。

  • 对于使用该项目而造成的任何直接或间接损害,我将不承担任何责任。

该项目建立在项目上如下

工作 作者 执照
申请 Iahispano 麻省理工学院许可证
python-audio-separator Nomad Karaoke 麻省理工学院许可证
基于检索的voice-conversion-webui RVC项目 麻省理工学院许可证
rvc-ponx-ty-anh pham huynh anh 麻省理工学院许可证
火炬 - onnx-crepe-by-an pham huynh anh 麻省理工学院许可证
Hubert-No-Familyq pham huynh anh 麻省理工学院许可证
本地注意力 菲尔·王 麻省理工学院许可证
Torchfcpe cn_chitu 麻省理工学院许可证
fcponnx 尤里 麻省理工学院许可证
ContentVec Kaizhi Qian 麻省理工学院许可证
Mediafiredl 圣地亚哥·阿里尔·曼西拉(Santiago Ariel Mansilla) 麻省理工学院许可证
噪声 蒂姆·塞恩堡 麻省理工学院许可证
by-anh pham huynh anh 麻省理工学院许可证
mega.py Marco Trevisan 没有许可证
gdown 肯塔罗·瓦达(Kentaro Wada) 麻省理工学院许可证
耳语 Openai 麻省理工学院许可证
pyannoteaudio pyannote 麻省理工学院许可证
AudioEditing Code 希拉庄园 麻省理工学院许可证
stftpitchshift JürgenHock 麻省理工学院许可证
代号-rvc-fork-3 代号; 0 麻省理工学院许可证
交互式音频实验室 麻省理工学院许可证

模型搜索引擎的模型仓库

  • Voice-dels.com

在RVC中提取F0的方法

单击查看

本文档详细介绍了根据个人经验提取高度使用,有关优势,缺点,优势和可靠性的信息的方法。

方法 类型 优势 限制 力量 可靠性
下午 Praat 快速地 自卑 短的 短的
dio pyworld 适用于说唱 高频不准确 中等的 中等的
收成 pyworld 比Dio更准确 处理较慢 高的 很高
深度学习 高精度 请求GPU 很高 很高
Mangio-Crepe 可丽饼 RVC的优化 有时比原始的可丽饼少 平均至高 平均至高
fcpe 深度学习 确切地说,实时 需要强大的GPU 相当 中等的
fcpe-eggacy fcpe老 确切地说,实时 年龄较大 相当 中等的
rmvpe 深度学习 有效的声音 成本资源 很高 出色的
RMVPE-LEGAICY rmvpe old 用fmin-max计算 年龄较大 高的 相当
天秤座 简单,有效 简单错误 中等的 短的
pyin 天秤座 比阴更稳定 更复杂的计算 相当 相当
滑动 世界 高精度 对噪声敏感 高的 相当
piptrack 天秤座 快速地 自卑 短的 短的
FCN 深度学习 空洞的 F0很低且缓慢 中等的 中等的

错误报告

  • 对于不活动的错误报告系统,您可以通过Discord pham_huynh_anh向我报告错误或发行

☎️与我联系

  • 不和谐: pham_huynh_anh
下载源码

通过命令行克隆项目:

git clone https://github.com/PhamHuynhAnh16/Vietnamese-RVC.git