La mise à niveau majeure de Google de la technologie vocale de l'IA: 2 minutes de dialogue et 3 secondes de génération, ce qui changera complètement la façon dont l'interaction humaine-ordinateur - articles de l'IA

Auteur：Eve Cole Date de mise à jour：2025-02-15 12:48:02

La dernière technologie de génération de voix de Google a à nouveau actualisé la norme de l'industrie. Cette technologie révolutionnaire génère non seulement des conversations naturelles de jusqu'à 2 minutes en 3 secondes, mais assure également la cohérence vocale et les performances de qualité sonore parmi plusieurs haut-parleurs. La technologie a été utilisée dans plusieurs produits Google tels que Gemini Live et Project Astra, et change la façon dont les gens interagissent avec les assistants numériques et les outils d'IA dans le monde.

Au cours des dernières années, Google s'est concentré sur la recherche dans le domaine de la génération audio. Les modèles qu'ils ont développés peuvent créer une voix naturelle de haute qualité à travers une variété de méthodes d'entrée telles que le texte, le contrôle du rythme et des sons spécifiques. Récemment, Google s'est associé à plusieurs équipes internes pour lancer deux fonctionnalités importantes: le note de la vue d'ensemble de l'audio peut convertir des documents téléchargés en conversations vives;

Ces percées sont basées sur plusieurs résultats de recherche antérieurs de Google. Des codecs audio neuronaux SoundStream, au cadre de modélisation du langage audio Audiolm, à Soundstorm, qui peut générer plus de 30 secondes de conversations, Google innove constamment dans le domaine de la génération de voix. La dernière percée technologique utilise des codecs vocaux plus efficaces qui peuvent compresser l'audio à un faible débit de 600 bits par seconde tout en maintenant la qualité de sortie.

Pour réaliser cette percée technologique, Google a développé une architecture transformateur spéciale qui peut traiter efficacement la hiérarchie des informations. Le modèle est d'abord formé sur des centaines de milliers d'heures de données de la parole, puis ajusté sur un ensemble de données de conversation de haute qualité qui contient des caractéristiques naturelles telles que des pauses de ton dans des conversations réelles. Pour garantir une utilisation responsable de la technologie, Google a également intégré la technologie synthétique pour ajouter des filigranes au contenu audio généré par l'IA.

Pour l'avenir, Google travaille à améliorer la douceur, la qualité sonore du modèle et ajoute des contrôles plus détaillés. Combiné avec la série de modèles Gemini, cette technologie devrait jouer un rôle important dans l'amélioration de l'expérience éducative et l'accessibilité du contenu, apportant plus de possibilités à la technologie de la voix.

L'importance de cette technologie n'est pas seulement dans son amélioration des performances, mais aussi dans son ouverture d'un nouveau chapitre pour l'interaction humaine-ordinateur. En transformant des innovations technologiques complexes en façons naturelles et intuitives d'interaction, Google jette les bases de la prochaine génération d'expériences numériques.

Détails: https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/

La technologie de génération de voix de Google n'est pas seulement un saut technologique, mais aussi une progression révolutionnaire de l'interaction humaine-ordinateur, apportant des possibilités illimitées dans le monde numérique futur.