naturalspeech2 github. Récemment, Microsoft a annoncé le lancement d'un nouveau grand modèle : NaturalSpeech2. Par rapport aux grands modèles précédents, la reconstruction vocale NaturalSpeech2 est « plus précise », ne « collera pas à la lecture » et peut offrir aux utilisateurs une meilleure expérience et un meilleur service. .
Microsoft a récemment lancé un modèle vocal appelé NaturalSpeech2. Ce modèle adopte une conception de « diffusion potentielle » et donne des résultats exceptionnels au niveau de la synthèse vocale à échantillon nul. Microsoft affirme que le modèle fournit une solution vocale/chantée « de qualité commerciale » qui peut donner. aux utilisateurs une expérience de synthèse vocale diversifiée et de haute qualité.
Microsoft a mené une série de démonstrations de NaturalSpeech2, démontrant sa capacité à générer des discours avec différentes identités de locuteurs, prosodies et styles (comme le chant) dans des situations sans échantillon.
Il est rapporté que, contrairement aux systèmes de synthèse vocale (TTS) traditionnels, NaturalSpeech2 de Microsoft utilise des « vecteurs continus » au lieu de « marqueurs discrets » pour représenter la parole, générant ainsi des segments vocaux plus complets et ne produisant pas de « lecture bâton » qui est « dénué d'émotion". (Parler mot à mot)".
Les résultats expérimentaux montrent que la parole générée par NaturalSpeech2 dans des conditions d'échantillon nul est presque cohérente avec la prosodie des invites vocales et de la parole réelle, et que le naturel (mesuré par CMOS) sur les ensembles de tests LibriTTS et VCTK est impossible à distinguer de la parole réelle.
L'article de ce projet est actuellement publié sur GitHub
1. Grand modèle officiellement lancé par Microsoft
2. Cela apportera de nombreuses nouvelles interactions riches aux joueurs.
3. Actuellement en développement intense, restez à l’écoute.