Un pipeline autonome pour changer les voix à l'aide de n'importe quel modèle vocal d'IA formé par RVC v2. Cet outil peut être utilisé pour appliquer la conversion vocale à n'importe quelle entrée audio.
WebUI est en développement et en test constant, mais vous pouvez l'essayer dès maintenant en local !
Installez et extrayez toutes les nouvelles exigences et modifications en ouvrant une fenêtre de ligne de commande dans le répertoire RVC-v2-UI
et en exécutant les commandes suivantes.
pip install -r requirements.txt git pull
Pour les utilisateurs de Colab, cliquez simplement sur Runtime
dans la barre de navigation supérieure du notebook Colab et Disconnect and delete runtime
dans le menu déroulant. Suivez ensuite les instructions du bloc-notes pour exécuter le webui.
(J'espère à venir bientôt)
Suivez les instructions ici pour installer Git sur votre ordinateur. Suivez également ce guide pour installer Python VERSION 3.9 si vous ne l'avez pas déjà fait. L'utilisation d'autres versions de Python peut entraîner des conflits de dépendances.
Alternativement, vous pouvez utiliser pyenv pour gérer les versions de Python :
Installez pyenv en suivant les instructions ici.
Installez Python 3.9 :
pyenv install 3.9
Définissez-le comme votre version Python locale :
pyenv local 3.9
Suivez les instructions ici pour installer ffmpeg sur votre ordinateur.
Ouvrez une fenêtre de ligne de commande et exécutez ces commandes pour cloner l'intégralité de ce référentiel, créer un environnement virtuel et installer les dépendances supplémentaires requises.
git clone https://github.com/PseudoRAM/RVC-v2-UI cd RVC-v2-UI
pyenv exec python -m venv venv
python -m venv venv
venvScriptsactivate
source venv/bin/activate
pip install -r requirements.txt
Exécutez la commande suivante pour télécharger le modèle de base Hubert requis.
python src/download_models.py
Pour exécuter l'interface Web RVC Voice Changer, exécutez la commande suivante.
python src/webui.py
Drapeau | Description |
---|---|
-h , --help | Affichez ce message d'aide et quittez. |
--share | Créez une URL publique. Ceci est utile pour exécuter l'interface utilisateur Web sur Google Colab. |
--listen | Rendez l'interface utilisateur Web accessible depuis votre réseau local. |
--listen-host LISTEN_HOST | Le nom d'hôte que le serveur utilisera. |
--listen-port LISTEN_PORT | Le port d'écoute que le serveur utilisera. |
Une fois que le message de sortie suivant Running on local URL: http://127.0.0.1:7860
apparaît, vous pouvez cliquer sur le lien pour ouvrir un onglet avec l'interface Web.
Accédez à l'onglet Download model
, collez le lien de téléchargement vers le modèle RVC et donnez-lui un nom unique. Vous pouvez rechercher sur AI Hub Discord où des modèles vocaux déjà entraînés sont disponibles en téléchargement. Vous pouvez vous référer aux exemples pour savoir à quoi devrait ressembler le lien de téléchargement. Le fichier zip téléchargé doit contenir le fichier de modèle .pth et un fichier .index facultatif.
Une fois les 2 champs de saisie renseignés, cliquez simplement sur Download
! Une fois que le message de sortie indique [NAME] Model successfully downloaded!
, vous devriez pouvoir l'utiliser dans l'onglet Convert Voice
après avoir cliqué sur le bouton Actualiser les modèles !
Pour les personnes qui ont formé des modèles RVC v2 localement et souhaitent les utiliser pour la conversion vocale. Accédez à l'onglet Upload model
et suivez les instructions. Une fois que le message de sortie indique [NAME] Model successfully uploaded!
, vous devriez pouvoir l'utiliser dans l'onglet Convert Voice
après avoir cliqué sur le bouton Actualiser les modèles !
Dans le menu déroulant Modèles vocaux, sélectionnez le modèle vocal à utiliser. Cliquez sur Refresh Models
si vous avez ajouté les fichiers manuellement au répertoire rvc_models pour actualiser la liste.
Dans le champ Entrée audio, téléchargez votre fichier audio.
Ajustez le pas si nécessaire. Cela modifie la hauteur de la voix de sortie.
D'autres options avancées pour la conversion vocale peuvent être consultées en cliquant sur la flèche en accordéon pour les développer.
Une fois toutes les options renseignées, cliquez sur Convert
et la voix générée par l'IA devrait apparaître dans quelques instants en fonction de votre GPU.
Pour exécuter le pipeline de conversion vocale à l'aide de la ligne de commande, exécutez la commande suivante :
python src/main.py <input_audio> <rvc_model> [pitch] [f0_method] [index_rate] [filter_radius] [rms_mix_rate] [protect]
Paramètre | Description |
---|---|
input_audio | Chemin d'accès au fichier audio d'entrée. |
rvc_model | Nom du modèle RVC à utiliser. |
pitch | (Facultatif) Changement de hauteur en demi-tons. La valeur par défaut est 0. |
f0_method | (Facultatif) Algorithme de détection de hauteur. Options : 'rmvpe' (par défaut) ou 'mangio-crêpe'. |
index_rate | (Facultatif) Taux d'indexation pour la conversion vocale. La valeur par défaut est 0,5. Plage : 0 à 1. |
filter_radius | (Facultatif) Rayon de filtre pour le filtrage médian. La valeur par défaut est 3. Plage : 0 à 7. |
rms_mix_rate | (Facultatif) Taux de mélange RMS. La valeur par défaut est 0,25. Plage : 0 à 1. |
protect | (Facultatif) Taux de protection pour préserver certaines caractéristiques vocales d'origine. La valeur par défaut est 0,33. Plage : 0 à 0,5. |
Exemple d'utilisation :
python src/main.py "path/to/input/audio.wav" "JohnDoe" 2 rmvpe 0.7 3 0.3 0.35
Cette commande convertira la voix en "audio.wav" en utilisant le modèle RVC "JohnDoe", en augmentant la hauteur de 2 demi-tons, en utilisant l'algorithme de détection de hauteur 'rmvpe', avec un taux d'indice de 0,7, un rayon de filtre de 3, un mixage RMS taux de 0,3 et taux de protection de 0,35.
Décompressez (si nécessaire) et transférez les fichiers .pth
et .index
vers un nouveau dossier du répertoire rvc_models. Chaque dossier ne doit contenir qu'un seul fichier .pth
et un seul fichier .index
.
La structure des répertoires devrait ressembler à ceci :
├── rvc_models │ ├── John │ │ ├── JohnV2.pth │ │ └── added_IVF2237_Flat_nprobe_1_v2.index │ ├── May │ │ ├── May.pth │ │ └── added_IVF2237_Flat_nprobe_1_v2.index │ ├── MODELS.txt │ └── hubert_base.pt ├── voice_output └── src
L'utilisation de la voix convertie aux fins suivantes est interdite.
Critiquer ou attaquer des individus.
Défendre ou s'opposer à des positions politiques, religieuses ou idéologies spécifiques.
Afficher publiquement des expressions fortement stimulantes sans zonage approprié.
Vente de modèles vocaux et de clips vocaux générés.
Usurpation de l'identité du propriétaire d'origine de la voix avec des intentions malveillantes de nuire à autrui.
Fins frauduleuses conduisant à un vol d’identité ou à des appels téléphoniques frauduleux.
Je ne suis pas responsable de tout dommage direct, indirect, consécutif, accidentel ou spécial découlant de ou lié de quelque manière que ce soit à l'utilisation/la mauvaise utilisation ou à l'incapacité d'utiliser ce logiciel.