¡Destello! ElevenLabs lanza el modelo de diálogo por voz Flash: sólo 75 milisegundos de retraso soporta 32 idiomas

Autor：Eve Cole Fecha de actualización：2024-12-24 17:48:01

ElevenLabs ha lanzado un nuevo modelo de síntesis de voz, Flash, que actualmente es la solución de conversión de texto a voz (TTS) más rápida con su latencia ultrabaja: sólo 75 milisegundos. Este innovador desarrollo es particularmente adecuado para aplicaciones de IA conversacional que requieren interacción en tiempo real, mejorando significativamente la fluidez y naturalidad de la interacción persona-computadora. El modelo Flash está disponible en dos versiones: Flash v2 (admite inglés) y Flash v2.5 (admite 32 idiomas). Los usuarios pueden experimentarlo directamente a través de la plataforma de IA conversacional y API de ElevenLabs. Aunque ligeramente inferior al modelo Turbo en términos de calidad de sonido y expresión emocional, el Flash estaba claramente por delante en términos de velocidad y se impuso en la prueba a ciegas.

El modelo Flash se divide en dos versiones, Flash v2 solo admite inglés y Flash v2.5 admite 32 idiomas. Al utilizar ambos modelos, los usuarios gastarán 1 punto por cada dos personajes que generen. Aunque el modelo Flash es ligeramente inferior al modelo Turbo en términos de calidad de sonido y profundidad emocional, su rendimiento de baja latencia le permitió superar al resto de su clase en pruebas a ciegas, convirtiéndolo en la opción más rápida de su clase.

El equipo técnico de ElevenLabs dijo que el lanzamiento de modelos Flash promoverá en gran medida la fluidez y naturalidad de la interacción persona-computadora. Los desarrolladores pueden llamar directamente a los ID de modelo "eleven_flash_v2" y "eleven_flash_v2_5" a través de la API. Los materiales de referencia de API específicos se pueden encontrar en el sitio web oficial de ElevenLabs. A través de esta innovación, ElevenLabs espera abrir más escenarios de interacción y diálogo humanizados y de baja latencia.

ElevenLabs también ofrece una variedad de productos y soluciones, incluidos asistentes de voz personalizados, herramientas de producción de audio y estudios de doblaje, diseñados para ayudar a los usuarios y desarrolladores en diferentes campos a lograr una creación de audio con IA de alta calidad. Además, ElevenLabs también lleva a cabo activamente investigación y desarrollo y continúa mejorando el nivel técnico de sus productos para satisfacer las crecientes necesidades de los usuarios.

Reflejos:

La latencia del modelo Flash para generar voz es de sólo 75 milisegundos, lo que es adecuado para asistentes de voz conversacionales de baja latencia.

Flash v2.5 admite 32 idiomas y cada dos caracteres generados por el usuario cuesta 1 punto.

En pruebas a ciegas, el modelo Flash superó a otros productos similares, convirtiéndose en la solución de conversión de texto a voz más rápida.

Con todo, el modelo Flash de ElevenLabs aporta nuevas posibilidades a las aplicaciones de IA conversacional con su latencia ultrabaja y soporte multilingüe, y también indica que la interacción persona-computadora será más fluida y natural en el futuro. Su ventaja en velocidad la convierte en una de las soluciones de conversión de texto a voz líderes en el mercado y merece la atención de desarrolladores y usuarios.