OuteTTS-0.1-350M : une nouvelle méthode de synthèse de synthèse vocale avec clonage de parole sans échantillon

Auteur：Eve Cole Date de mise à jour：2024-11-29 14:40:33

Rapports de l'éditeur de downcodes : Oute AI a récemment publié sa nouvelle méthode de synthèse de synthèse vocale, OuteTTS-0.1-350M. Ce modèle TTS basé sur l'architecture LLaMa, avec son architecture simple et son WavTokenizer efficace, permet d'obtenir une synthèse vocale de haute qualité sans avoir besoin d'adaptateurs externes. Non seulement il dispose de capacités de clonage vocal sans échantillon, mais il est également compatible avec llama.cpp, ce qui le rend idéal pour les applications en temps réel. La sortie d'OuteTTS-0.1-350M apporte sans aucun doute de nouvelles avancées dans le développement de la technologie de synthèse vocale.

Récemment, Oute AI a publié une nouvelle méthode de synthèse de synthèse vocale appelée OuteTTS-0.1-350M. Cette approche exploite une modélisation de langage pure sans avoir recours à des adaptateurs externes ou à des architectures complexes, offrant ainsi une approche simplifiée du TTS. OuteTTS-0.1-350M est basé sur l'architecture LLaMa et utilise WavTokenizer pour générer directement des jetons audio, rendant le processus plus efficace.

Le modèle propose un clonage de voix sans échantillon, qui ne nécessite que quelques secondes d'audio de référence pour reproduire une nouvelle voix. L'OuteTTS-0.1-350M est conçu pour les performances des appareils et est compatible avec llama.cpp, ce qui le rend idéal pour les applications en temps réel. Bien que le modèle ait une taille de paramètre relativement petite (350 millions), ses performances sont comparables à celles des systèmes TTS plus grands et plus complexes.

L'accessibilité et l'efficacité de l'OuteTTS-0.1-350M le rendent adapté à un large éventail d'applications, notamment les assistants personnalisés, les livres audio et la localisation de contenu. Oute AI est publié sous une licence CC-BY, ce qui encourage davantage d'expérimentation et d'intégration dans différents projets, démocratisant ainsi la technologie TTS avancée.

La sortie d'OuteTTS-0.1-350M marque une avancée clé pour la technologie de synthèse vocale, exploitant une architecture simplifiée pour fournir une synthèse vocale de haute qualité avec des exigences informatiques minimales. Il intègre l'architecture LLaMa, utilise WavTokenizer et est capable d'effectuer un clonage vocal sans échantillon sans adaptateurs complexes, ce qui le distingue des modèles TTS traditionnels.

Adresse : https://www.outeai.com/blog/OuteTTS-0.1-350M

Dans l'ensemble, OuteTTS-0.1-350M apporte de nouvelles possibilités dans le domaine de la synthèse vocale grâce à son efficacité, sa simplicité et son accessibilité, et il vaut la peine d'attendre avec impatience ses performances dans les applications futures. L'éditeur de Downcodes continuera à prêter attention au développement ultérieur de ce modèle.