Grand modèle vocal SpeechGPT-Gen : paramètres 8B, génération de parole sans échantillon

Auteur：Eve Cole Date de mise à jour：2025-02-01 00:16:01

Récemment, des chercheurs de l’Université de Fudan ont réalisé une percée majeure et lancé avec succès un nouveau modèle de langage vocal à grande échelle, SpeechGPT-Gen. Le modèle a une taille de paramètre de 8 milliards et présente d'excellentes performances dans les domaines de la synthèse vocale, de la conversion vocale et du dialogue vocal. Sa haute efficacité provient de la méthode innovante de génération de chaîne d'informations. Cette recherche pose une nouvelle étape dans le développement de la technologie de l’intelligence artificielle vocale et fournit un support technique solide pour des applications plus intelligentes à l’avenir.

Webmaster Home a rapporté que des chercheurs de l'Université de Fudan ont lancé SpeechGPT-Gen, un modèle de langage vocal à grande échelle à paramètres 8B avec une grande efficacité dans la modélisation de l'information sémantique et perceptuelle. Le modèle démontre d'excellentes performances et évolutivité dans de multiples applications telles que la synthèse vocale sans prise de vue, la conversion vocale et le dialogue vocal. La méthode Chain of Information Generation (CoIG) est adoptée pour résoudre le problème d’inefficacité des méthodes traditionnelles de génération de parole. De plus, le modèle utilise des informations sémantiques a priori dans la correspondance de flux, ce qui améliore l'efficacité et la qualité de sortie du modèle.

L’émergence du modèle SpeechGPT-Gen marque un progrès significatif dans la technologie de l’intelligence artificielle vocale. Sa haute efficacité et son évolutivité offrent la possibilité d'un plus grand nombre de scénarios d'application à l'avenir. Il vaut la peine d'attendre avec impatience son application et son développement ultérieurs dans divers domaines. Je pense que des résultats de recherche plus surprenants émergeront à l'avenir.