Un canal autónomo para cambiar voces utilizando cualquier modelo de voz de IA entrenado por RVC v2. Esta herramienta se puede utilizar para aplicar la conversión de voz a cualquier entrada de audio.
WebUI está en constante desarrollo y pruebas, ¡pero puedes probarlo ahora mismo en local!
Instale y aplique nuevos requisitos y cambios abriendo una ventana de línea de comandos en el directorio RVC-v2-UI
y ejecutando los siguientes comandos.
pip install -r requirements.txt git pull
Para los usuarios de colab, simplemente haga clic en Runtime
en la barra de navegación superior del cuaderno de colab y Disconnect and delete runtime
en el menú desplegable. Luego siga las instrucciones del cuaderno para ejecutar webui.
(Esperemos que llegue pronto)
Siga las instrucciones aquí para instalar Git en su computadora. Siga también esta guía para instalar Python VERSIÓN 3.9 si aún no lo ha hecho. El uso de otras versiones de Python puede provocar conflictos de dependencia.
Alternativamente, puedes usar pyenv para administrar las versiones de Python:
Instale pyev siguiendo las instrucciones aquí.
Instale Python 3.9:
pyenv install 3.9
Configúrelo como su versión local de Python:
pyenv local 3.9
Siga las instrucciones aquí para instalar ffmpeg en su computadora.
Abra una ventana de línea de comandos y ejecute estos comandos para clonar todo este repositorio, crear un entorno virtual e instalar las dependencias adicionales necesarias.
git clone https://github.com/PseudoRAM/RVC-v2-UI cd RVC-v2-UI
pyenv exec python -m venv venv
python -m venv venv
venvScriptsactivate
source venv/bin/activate
pip install -r requirements.txt
Ejecute el siguiente comando para descargar el modelo base de Hubert requerido.
python src/download_models.py
Para ejecutar la interfaz de usuario web de RVC Voice Changer, ejecute el siguiente comando.
python src/webui.py
Bandera | Descripción |
---|---|
-h , --help | Muestra este mensaje de ayuda y sal. |
--share | Crea una URL pública. Esto es útil para ejecutar la interfaz de usuario web en Google Colab. |
--listen | Haga que la interfaz de usuario web sea accesible desde su red local. |
--listen-host LISTEN_HOST | El nombre de host que utilizará el servidor. |
--listen-port LISTEN_PORT | El puerto de escucha que utilizará el servidor. |
Una vez que aparezca el siguiente mensaje de salida Running on local URL: http://127.0.0.1:7860
, puede hacer clic en el enlace para abrir una pestaña con la WebUI.
Navegue a la pestaña Download model
, pegue el enlace de descarga en el modelo RVC y asígnele un nombre único. Puede buscar en AI Hub Discord, donde los modelos de voz ya entrenados están disponibles para descargar. Puede consultar los ejemplos sobre cómo debería verse el enlace de descarga. El archivo zip descargado debe contener el archivo de modelo .pth y un archivo .index opcional.
Una vez que los 2 campos de entrada estén completos, simplemente haga clic en Download
. Una vez que el mensaje de salida diga [NAME] Model successfully downloaded!
, debería poder usarlo en la pestaña Convert Voice
después de hacer clic en el botón Actualizar modelos.
Para personas que han entrenado modelos RVC v2 localmente y desean usarlos para la conversión de voz. Navegue hasta la pestaña Upload model
y siga las instrucciones. Una vez que el mensaje de salida diga [NAME] Model successfully uploaded!
, debería poder usarlo en la pestaña Convert Voice
después de hacer clic en el botón Actualizar modelos.
En el menú desplegable Modelos de voz, seleccione el modelo de voz que desea utilizar. Haga clic en Refresh Models
si agregó los archivos manualmente al directorio rvc_models para actualizar la lista.
En el campo Entrada de audio, cargue su archivo de audio.
Ajuste el tono según sea necesario. Esto cambia el tono de la voz de salida.
Se pueden ver otras opciones avanzadas para la conversión de voz haciendo clic en la flecha del acordeón para expandirlas.
Una vez que se hayan completado todas las opciones, haga clic en Convert
y la voz generada por IA debería aparecer en unos momentos, dependiendo de su GPU.
Para ejecutar la canalización de conversión de voz usando la línea de comando, ejecute el siguiente comando:
python src/main.py <input_audio> <rvc_model> [pitch] [f0_method] [index_rate] [filter_radius] [rms_mix_rate] [protect]
Parámetro | Descripción |
---|---|
input_audio | Ruta al archivo de audio de entrada. |
rvc_model | Nombre del modelo RVC a utilizar. |
pitch | (Opcional) Cambio de tono en semitonos. El valor predeterminado es 0. |
f0_method | (Opcional) Algoritmo de detección de tono. Opciones: 'rmvpe' (predeterminado) o 'mangio-crepe'. |
index_rate | (Opcional) Tasa de índice para la conversión de voz. El valor predeterminado es 0,5. Rango: 0 a 1. |
filter_radius | (Opcional) Radio de filtro para filtrado mediano. El valor predeterminado es 3. Rango: 0 a 7. |
rms_mix_rate | (Opcional) Tasa de mezcla RMS. El valor predeterminado es 0,25. Rango: 0 a 1. |
protect | (Opcional) Proteja la tasa para preservar algunas características de voz originales. El valor predeterminado es 0,33. Rango: 0 a 0,5. |
Uso de ejemplo:
python src/main.py "path/to/input/audio.wav" "JohnDoe" 2 rmvpe 0.7 3 0.3 0.35
Este comando convertirá la voz en "audio.wav" usando el modelo RVC "JohnDoe", elevando el tono en 2 semitonos, usando el algoritmo de detección de tono 'rmvpe', con una tasa de índice de 0,7, radio de filtro de 3, mezcla RMS tasa de 0,3 y tasa de protección de 0,35.
Descomprima (si es necesario) y transfiera los archivos .pth
y .index
a una nueva carpeta en el directorio rvc_models. Cada carpeta solo debe contener un archivo .pth
y un archivo .index
.
La estructura del directorio debería verse así:
├── rvc_models │ ├── John │ │ ├── JohnV2.pth │ │ └── added_IVF2237_Flat_nprobe_1_v2.index │ ├── May │ │ ├── May.pth │ │ └── added_IVF2237_Flat_nprobe_1_v2.index │ ├── MODELS.txt │ └── hubert_base.pt ├── voice_output └── src
Queda prohibido el uso de la voz convertida para los siguientes fines.
Criticar o atacar a personas.
Defender u oponerse a posiciones políticas, religiones o ideologías específicas.
Mostrar públicamente expresiones fuertemente estimulantes sin una zonificación adecuada.
Venta de modelos de voz y clips de voz generados.
Suplantación del propietario original de la voz con intenciones maliciosas de dañar/herir a otros.
Fines fraudulentos que conduzcan a suplantación de identidad o llamadas telefónicas fraudulentas.
No soy responsable de ningún daño directo, indirecto, consecuente, incidental o especial que surja o esté relacionado de alguna manera con el uso/mal uso o la imposibilidad de usar este software.