ElevenLabs, una nueva empresa que se centra en la clonación de voz mediante IA y la API de texto a voz, lanzó recientemente una nueva característica llamativa: los usuarios pueden crear agentes de IA conversacionales completos de forma independiente. Esta actualización marca la transformación de ElevenLabs de un proveedor de tecnología de voz pura a un proveedor de soluciones de IA más integral, brindando a los desarrolladores un espacio de personalización sin precedentes y también anunciando una competencia más intensa en el campo del diálogo de IA. El editor de Downcodes le brindará una comprensión profunda del poder de esta nueva función.
Los usuarios ahora pueden personalizar varias variables del agente conversacional según sus propias necesidades en la plataforma de desarrollo de ElevenLabs, como la entonación de la voz y la duración de la respuesta.
ElevenLabs ha proporcionado principalmente diferentes servicios de voz y de texto a voz en el pasado. Sam Sklar, jefe de crecimiento de la compañía, dijo a TechCrunch que muchos clientes ya están utilizando la plataforma para crear agentes de IA conversacionales. Pero integrar la base de conocimientos y gestionar las interrupciones de los clientes son los mayores desafíos. Por eso, ElevenLabs decidió crear un canal completo de bots conversacionales para facilitar este proceso.
Los usuarios pueden comenzar a crear agentes conversacionales iniciando sesión en su cuenta de ElevenLabs, seleccionando una plantilla o creando un nuevo proyecto. Pueden seleccionar el idioma principal del agente, el primer mensaje y las indicaciones del sistema para determinar la personalidad del agente.
Además, los desarrolladores deben elegir un modelo de lenguaje grande (como Gemini, GPT o Claude), la temperatura de la respuesta (determina la creatividad) y las restricciones de uso de tokens.
Los usuarios también pueden agregar bases de conocimiento como archivos, URL o bloques de texto según sus necesidades para mejorar las capacidades del bot conversacional. Al mismo tiempo, pueden integrar sus propios modelos de lenguaje grandes personalizados con el bot. El SDK de ElevenLabs es compatible con Python, JavaScript, React y Swift, y la empresa también proporciona una API WebSocket para una mayor personalización.
La empresa también permite a los usuarios definir criterios de recopilación de datos, como el nombre y el correo electrónico del cliente que habló con el agente, y utilizar lenguaje natural para definir criterios para evaluar el éxito de la llamada.
ElevenLabs está aprovechando su canal existente de conversión de texto a voz y al mismo tiempo desarrolla capacidades de conversión de voz a texto para nuevos productos de IA conversacional. Actualmente, la empresa no ofrece una API de voz a texto independiente, pero es posible que la lance en el futuro, compitiendo así con las API de voz a texto de empresas como Google, Microsoft y Amazon, así como con Compiten las API Whisper, AssemblyAI, Deepgram, Speechmatics y Gladia de OpenAI.
La compañía planea recaudar una nueva ronda de financiación con una valoración de más de 3 mil millones de dólares y está compitiendo con otras nuevas empresas de inteligencia artificial de voz como Vapi y Retell, que también están creando agentes conversacionales. Es más, ElevenLabs competirá con la API de conversación en tiempo real de OpenAI. Sin embargo, ElevenLabs cree que su capacidad de personalización y la flexibilidad para cambiar de modelo le darán una ventaja sobre la competencia.
Esta nueva característica de ElevenLabs no sólo mejora su competitividad en el campo de la voz con IA, sino que también proporciona a los desarrolladores herramientas prácticas para crear agentes de IA conversacionales más potentes y personalizados. En el futuro, con el lanzamiento de la función de voz a texto y la adición de más opciones de personalización, se espera que ElevenLabs ocupe un lugar en el campo del diálogo con IA. El editor de Downcodes seguirá atento a su desarrollo.