L'équipe AGI d'Amazon a récemment publié BASE TTS, un modèle de synthèse vocale avec 98 milliards de paramètres qui a été formé à l'aide de 100 000 heures d'enregistrement de données. Il s'agit actuellement du plus grand modèle de ce type. La sortie de ce modèle marque un progrès significatif dans la technologie de synthèse vocale. Son grand nombre de paramètres et ses données d'entraînement massives devraient améliorer considérablement le naturel et l'anthropomorphisme de la synthèse vocale et offrir aux utilisateurs une meilleure expérience vocale. L'objectif de l'équipe est d'appliquer ce modèle aux applications d'apprentissage afin d'améliorer encore la qualité des voix humaines dans les applications de synthèse vocale.
L'équipe Amazon AGI a publié BASE TTS, le plus grand modèle de synthèse vocale jamais conçu, avec 98 milliards de paramètres et formé à l'aide de 100 000 heures de données d'enregistrement. L'équipe prévoit d'utiliser ce modèle dans des applications d'apprentissage pour améliorer la qualité des voix humaines dans les applications de synthèse vocale.
La sortie du modèle BASE TTS démontre la forte force d'Amazon dans le domaine de l'intelligence artificielle et sa vision de la future technologie vocale. Elle annonce l'arrivée de voix artificielles plus naturelles et plus réalistes, offrant des possibilités plus riches à divers scénarios d'application. À l'avenir, nous pouvons nous attendre à ce que BASE TTS joue un rôle dans davantage de domaines et fournisse aux utilisateurs des services plus pratiques et de meilleure qualité.