Éclair! ElevenLabs lance le modèle de dialogue vocal Flash : un délai de seulement 75 millisecondes prend en charge 32 langues

Auteur：Eve Cole Date de mise à jour：2024-12-24 17:48:01

ElevenLabs a publié un nouveau modèle de synthèse vocale, Flash, qui est actuellement la solution de synthèse vocale (TTS) la plus rapide avec sa latence ultra-faible - seulement 75 millisecondes. Ce développement révolutionnaire est particulièrement adapté aux applications d’IA conversationnelle qui nécessitent une interaction en temps réel, améliorant considérablement la fluidité et le naturel de l’interaction homme-machine. Le modèle Flash est disponible en deux versions : Flash v2 (prend en charge l'anglais) et Flash v2.5 (prend en charge 32 langues). Les utilisateurs peuvent en faire l'expérience directement via la plateforme d'IA conversationnelle et l'API d'ElevenLabs. Bien que légèrement inférieur au modèle Turbo en termes de qualité sonore et d'expression émotionnelle, le Flash était clairement en avance en termes de vitesse et s'est imposé au blind test.

Le modèle Flash est divisé en deux versions, Flash v2 ne prend en charge que l'anglais et Flash v2.5 prend en charge 32 langues. En utilisant les deux modèles, les utilisateurs dépenseront 1 point pour deux personnages générés. Bien que le modèle Flash soit légèrement inférieur au modèle Turbo en termes de qualité sonore et de profondeur émotionnelle, ses performances de faible latence lui ont permis de dépasser le reste de sa catégorie lors des tests à l'aveugle, ce qui en fait l'option la plus rapide de sa catégorie.

L'équipe technique d'ElevenLabs a déclaré que le lancement des modèles Flash favoriserait grandement la fluidité et le naturel de l'interaction homme-machine. Les développeurs peuvent appeler directement les ID de modèle "eleven_flash_v2" et "eleven_flash_v2_5" via l'API. Des documents de référence spécifiques à l'API peuvent être trouvés sur le site officiel d'ElevenLabs. Grâce à cette innovation, ElevenLabs espère ouvrir davantage de scénarios de dialogue et d’interaction humanisés et à faible latence.

ElevenLabs propose également une variété de produits et de solutions, notamment des assistants vocaux personnalisés, des outils de production audio et des studios de doublage, conçus pour aider les utilisateurs et les développeurs de différents domaines à réaliser une création audio IA de haute qualité. Par ailleurs, ElevenLabs mène également activement des recherches et développements et continue d'améliorer le niveau technique de ses produits pour répondre aux besoins croissants des utilisateurs.

Points forts:

La latence du modèle Flash pour générer de la parole n'est que de 75 millisecondes, ce qui convient aux assistants vocaux conversationnels à faible latence.

Flash v2.5 prend en charge 32 langues et chaque deux caractères générés par l'utilisateur coûte 1 point.

Lors des tests aveugles, le modèle Flash a surpassé les autres produits similaires, devenant ainsi la solution de synthèse vocale la plus rapide.

Dans l’ensemble, le modèle Flash d’ElevenLabs apporte de nouvelles possibilités aux applications d’IA conversationnelle avec sa latence ultra-faible et sa prise en charge multilingue, et indique également que l’interaction homme-machine sera plus fluide et plus naturelle à l’avenir. Son avantage en termes de vitesse en fait l’une des solutions de synthèse vocale leaders du marché et mérite l’attention des développeurs et des utilisateurs.