Le modèle de génération vocale du laboratoire Alibaba Tongyi, CosyVoice, a été mis à niveau vers la version 2.0

Auteur：Eve Cole Date de mise à jour：2024-12-19 08:32:01

L'équipe vocale d'Alibaba Tongyi Lab a lancé CosyVoice 2.0, ce grand modèle de génération vocale open source a réalisé une avancée significative dans la technologie de synthèse vocale. Par rapport à la version de génération précédente, CosyVoice 2.0 a considérablement amélioré la précision, la stabilité et le naturel, réalisé une synthèse vocale en streaming bidirectionnel et réduit considérablement le délai de synthèse. Cette mise à niveau ne se reflète pas seulement au niveau technique, mais apporte également un saut qualitatif dans l'expérience utilisateur, offrant aux utilisateurs des services de synthèse vocale plus riches et plus pratiques.

L'équipe vocale d'Alibaba Tongyi Lab a annoncé que son grand modèle open source de génération vocale CosyVoice a été mis à niveau vers la version 2.0. Cette mise à niveau marque une amélioration significative de la précision, de la stabilité et de l'expérience naturelle de la technologie de génération vocale. CosyVoice2.0 adopte une technologie de génération vocale grand modèle qui intègre la modélisation hors ligne et en streaming pour réaliser une synthèse vocale en streaming bidirectionnel. Le délai de synthèse du premier paquet peut atteindre 150 ms, ce qui améliore considérablement la vitesse de réponse de la synthèse vocale.

微信截图_20241216105354.png

En termes de précision de prononciation, CosyVoice2.0 a une réduction du taux d'erreur de 30 à 50 % par rapport à la version précédente. Il a atteint le taux d'erreur de mot le plus bas sur l'ensemble de tests durs de l'ensemble de tests Seed-TTS, en particulier en langue synthétique. twisters, Excellentes performances en caractères polyphoniques et en caractères rares. De plus, la version 2.0 maintient la cohérence du timbre dans la génération de parole sans échantillon et la synthèse vocale multilingue. En particulier, la capacité de synthèse vocale multilingue a été considérablement améliorée par rapport à la version 1.0.

CosyVoice2.0 a également amélioré le rythme, la qualité sonore et la correspondance émotionnelle de l'audio synthétisé. Le score d'évaluation MOS est passé de 5,4 à 5,53, ce qui est proche du score d'un grand modèle commercial de synthèse vocale. Dans le même temps, la version 2.0 prend en charge un contrôle plus fin des émotions et un contrôle des dialectes et des accents, offrant aux utilisateurs des choix de langues plus riches, y compris les principaux dialectes tels que le cantonais, le dialecte du Sichuan, le dialecte de Zhengzhou, le dialecte de Tianjin et le dialecte de Changsha, ainsi que le rôle -fonctions de jeu. Comme l'imitation de robots, le discours de style Peppa Pig, etc.

La mise à niveau de CosyVoice2.0 améliore non seulement la technologie et l'expérience de synthèse vocale, mais favorise également le développement de la communauté open source et encourage davantage de développeurs à participer à l'innovation et à l'application de la technologie de traitement vocal.

Dépôt GitHub : CosyVoice (https://github.com/FunAudioLLM/CosyVoice) Découvrez la dernière mise à jour de CosyVoice2

Découvrez la DÉMO en ligne : https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

Code source ouvert : https://github.com/FunAudioLLM/CosyVoice

Modèle open source : https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

L'open source de CosyVoice 2.0 favorisera davantage la vulgarisation et le développement de la technologie de synthèse vocale, fournira aux développeurs et aux chercheurs des outils et des ressources puissants et attendra avec impatience l'émergence d'applications plus innovantes. Bienvenue pour visiter le lien fourni pour expérimenter et télécharger.