Hume AI ha anunciado el lanzamiento de su revolucionaria función de control de voz, una función experimental que permite a los usuarios crear voces de IA altamente personalizadas sin necesidad de codificación ni experiencia. Esta característica se basa en Empathic Voice Interface 2 (EVI2) de Hume, que mejora aún más la naturalidad, la expresión emocional y la personalización del habla, brindando a los desarrolladores y usuarios un nivel de control sin precedentes para crear soluciones que satisfagan una variedad de necesidades de aplicaciones únicas. como chatbots de atención al cliente, asistentes digitales, herramientas educativas y más. Se espera que esta innovadora tecnología revolucione la industria de la inteligencia artificial de voz y brinde a los usuarios una experiencia de voz más reflexiva y personalizada.
Hume AI, una startup que se centra en interfaces de voz emocionalmente inteligentes, lanzó recientemente una función experimental llamada "control de voz".
Esta nueva herramienta está diseñada para ayudar a los desarrolladores y usuarios a crear sonidos de IA personalizados sin necesidad de codificación, ingeniería de indicaciones de IA o habilidades de diseño de sonido. Los usuarios pueden personalizar fácilmente el sonido para adaptarlo a sus necesidades ajustando con precisión las características del sonido.
Esta nueva característica se basa en la Empathic Voice Interface 2 (EVI2), lanzada anteriormente por la compañía, que mejoró la naturalidad, la capacidad de respuesta emocional y la personalización del habla. A diferencia de la tecnología tradicional de clonación de voz, los productos de Hume se centran en ofrecer voces únicas y expresivas para satisfacer las necesidades de aplicaciones tan diversas como chatbots de servicio al cliente, asistentes digitales, profesores, guías turísticos y funciones de accesibilidad.
El control por voz permite a los desarrolladores ajustar las características de la voz en diez dimensiones diferentes, incluido el género, la asertividad, el entusiasmo, la confianza y más.
“Hombre/Mujer: Vocalizaciones de género que varían entre más masculinas y más femeninas.
Confianza: La firmeza de la voz, entre la timidez y la audacia.
Flotabilidad: La densidad del sonido, que oscila entre la deflación y la flotabilidad.
Confianza: El grado de certeza en la voz, entre tímido y confiado.
Entusiasmo: Emoción en la voz, entre calma y entusiasmo.
Nasal: La apertura de la voz, que oscila entre clara y nasal.
Relajación: La presión en la voz, entre tensión y relajación.
Suavidad: La textura del sonido, entre suave y entrecortado.
Suavidad: La energía detrás del sonido, en algún lugar entre suave y poderoso.
Estrechez: Qué tan contenido está el sonido, que oscila entre tenso y sin aliento. "
Los usuarios pueden ajustar estas propiedades en tiempo real mediante controles deslizantes virtuales, lo que hace que la personalización sea simple y directa. Esta función está actualmente disponible en la plataforma virtual de Hume y los usuarios pueden acceder a ella simplemente registrándose de forma gratuita.
El control por voz está actualmente disponible en versión beta y se integra con la interfaz de voz empática (EVI) de Hume, lo que lo hace disponible para una amplia gama de aplicaciones. Los desarrolladores pueden seleccionar una voz base, ajustar sus características y obtener una vista previa de los resultados en tiempo real. Este proceso garantiza la repetibilidad y la estabilidad de una sesión a otra, que es una característica clave de las aplicaciones en tiempo real, como los bots de servicio al cliente o los asistentes virtuales.
El impacto de EVI2 es evidente en la funcionalidad de control por voz. Los primeros modelos introdujeron características como indicaciones conversacionales y capacidades multilingües que ampliaron el alcance de las aplicaciones de inteligencia artificial de voz. Por ejemplo, EVI2 admite tiempos de respuesta inferiores a segundos para conversaciones naturales e inmediatas. También permite ajustar dinámicamente los estilos de conversación durante las interacciones, lo que la convierte en una herramienta versátil para las empresas.
Este movimiento es precisamente para resolver el problema de la dependencia de los sonidos preestablecidos en la industria de la IA. Muchas marcas o aplicaciones suelen tener dificultades para encontrar sonidos que satisfagan sus necesidades. El objetivo de Hume es desarrollar una IA de voz emocionalmente sensible y promover el progreso de la industria. Cuando EVI2 se lance en septiembre de 2024, ya mejorará significativamente la latencia y la rentabilidad de la voz y proporcionará una alternativa segura a las funciones de ajuste de voz.
El enfoque impulsado por la investigación de Hume está en el centro del desarrollo de productos, combinando grabaciones de voz interculturales y datos de encuestas emocionales. Esta metodología constituye la base de EVI2 y del control de voz recientemente lanzado, lo que le permite capturar la percepción humana del sonido con todo detalle.
Actualmente, el control por voz se lanzó en la versión beta y se combina con la interfaz de voz empática (EVI) de Hume para admitir una variedad de escenarios de aplicaciones. Los desarrolladores pueden seleccionar un sonido base, ajustar sus características y obtener una vista previa de los resultados en tiempo real, garantizando coherencia y estabilidad en aplicaciones en tiempo real como servicio al cliente o asistentes virtuales.
A medida que la competencia se intensifica en el mercado, el posicionamiento personalizado de voz e inteligencia emocional de Hume lo hace destacar en el campo de la inteligencia artificial de voz. En el futuro, Hume planea ampliar las funciones de control por voz, agregar dimensiones ajustables, optimizar la calidad del sonido y aumentar la selección de sonidos básicos.
Blog oficial: https://www.hume.ai/blog/introtaining-voice-control
Destacar:
**Hume AI ha lanzado una función de "control por voz", que permite a los usuarios crear fácilmente voces de IA personalizadas. **
** No se requieren conocimientos de codificación para esta función y los usuarios pueden ajustar la firma del sonido con un control deslizante. **
**Hume está diseñado para satisfacer diversas necesidades de aplicaciones a través de IA de voz personalizada y emocionalmente inteligente. **
Con todo, la función de "control de voz" de Hume AI brinda nuevas posibilidades al campo de la personalización de voz de AI. Se espera que su conveniencia y funciones personalizadas promuevan la aplicación generalizada de la tecnología de AI de voz y brinden a los usuarios una experiencia de interacción de voz más humana. En el futuro, con la mejora continua y la expansión de funciones, se espera que Hume AI se convierta en líder en el campo de la IA de voz.