Récemment, un nouveau modèle de synthèse vocale appelé Kokoro a été publié sur la plateforme Hugging Face, attirant une large attention. Ce modèle n'utilise que 82 millions de paramètres et moins de 100 heures de données audio pour obtenir des résultats comparables aux modèles comportant bien plus de paramètres que lui, se classant parmi les meilleurs dans le domaine TTS. Son processus de formation efficace et son utilisation pratique en font une percée dans le domaine de la synthèse vocale. Cet article présentera en détail les performances, le processus de formation, l'utilisation et les limites du modèle Kokoro.
Dans le contexte du développement rapide de l’intelligence artificielle, la technologie de synthèse vocale fait l’objet d’une attention croissante. Récemment, le dernier modèle de synthèse vocale nommé Kokoro a été officiellement publié sur la plateforme Hugging Face. Le modèle comporte 82 millions de paramètres, marquant une étape importante dans le domaine de la synthèse vocale.
Kokoro v0.19 s'est classé premier dans le classement TTS (text-to-speech) dans les semaines précédant sa sortie, surpassant même les autres modèles avec plus de paramètres. En mode mono, ce modèle a obtenu des résultats comparables à des modèles tels que le paramètre 467M XTTS v2 et le paramètre 1.2B MetaVoice en utilisant moins de 100 heures de données audio. Cette réalisation montre que la relation entre les performances des modèles de synthèse vocale traditionnels et la quantité de paramètres, de calculs et de données peut être plus significative que prévu.
En termes d'utilisation, les utilisateurs n'ont besoin que d'exécuter quelques lignes de code dans Google Colab pour charger le modèle et le package vocal et générer un audio de haute qualité. Kokoro prend actuellement en charge l'anglais américain et l'anglais britannique et propose plusieurs packs vocaux parmi lesquels les utilisateurs peuvent choisir.
Le processus de formation de Kokoro utilise l'instance vRAM A10080GB de Vast.ai, et le coût de location est relativement faible, garantissant un processus de formation efficace. L'ensemble du modèle a été entraîné en utilisant moins de 20 époques d'entraînement et moins de 100 heures de données audio. Les modèles Kokoro utilisent des données audio du domaine public ainsi que des données audio provenant d'autres licences ouvertes lors de la formation, garantissant ainsi la conformité des données.
Bien que Kokoro fonctionne bien en synthèse vocale, il est actuellement incapable de prendre en charge le clonage vocal en raison des limitations de ses données de formation et de son architecture, et les principales données de formation se concentrent sur de longues lectures et récits plutôt que sur le dialogue.
Modèle : https://huggingface.co/hexgrad/Kokoro-82M
Expérience : https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Souligner:
Kokoro-82M est un modèle de synthèse vocale récemment publié avec 82 millions de paramètres et prend en charge une variété de packages vocaux.
Ce modèle a d'excellentes performances dans le domaine du TTS et, une fois classé premier du classement, il n'a utilisé que moins de 100 heures de données audio pour l'entraînement.
Les modèles Kokoro sont formés à l'aide de données sous licence ouverte pour garantir la conformité, mais il existe actuellement certaines limitations fonctionnelles.
Dans l’ensemble, le modèle Kokoro présente un potentiel impressionnant dans le domaine de la synthèse vocale, et son entraînement efficace et ses excellentes performances méritent l’attention. Bien qu'il existe encore certaines limites à l'heure actuelle, je pense qu'avec le développement continu de la technologie, Kokoro aura des scénarios d'application plus larges à l'avenir.