Hume AI anunció el lanzamiento de su función experimental "Voice Control", una característica innovadora que permite a los usuarios personalizar fácilmente voces de IA personalizadas sin ninguna programación ni experiencia en IA. A través de controles deslizantes virtuales intuitivos, los usuarios pueden ajustar con precisión diez dimensiones diferentes de las características de la voz, como género, confianza, entusiasmo, etc., para crear una voz única que se adapte a diversos escenarios de aplicación. Esta característica se basa en la "Interfaz de voz empática 2" (EVI2) lanzada anteriormente por Hume, mejorando aún más la naturalidad, la expresión emocional y la personalización del habla.
Hume AI, una startup que se centra en interfaces de voz emocionalmente inteligentes, lanzó recientemente una función experimental llamada "control de voz".
Esta nueva herramienta está diseñada para ayudar a los desarrolladores y usuarios a crear sonidos de IA personalizados sin necesidad de codificación, ingeniería de indicaciones de IA o habilidades de diseño de sonido. Los usuarios pueden personalizar fácilmente el sonido para adaptarlo a sus necesidades ajustando con precisión las características del sonido.
Esta nueva característica se basa en la Empathic Voice Interface 2 (EVI2), lanzada anteriormente por la compañía, que mejora la naturalidad, la capacidad de respuesta emocional y la personalización del habla. A diferencia de la tecnología tradicional de clonación de voz, los productos de Hume se centran en ofrecer voces únicas y expresivas para satisfacer las necesidades de una variedad de aplicaciones, incluidos chatbots de servicio al cliente, asistentes digitales, profesores, guías turísticos y funciones de accesibilidad.
El control por voz permite a los desarrolladores ajustar las características de la voz en diez dimensiones diferentes, incluido el género, la asertividad, el entusiasmo, la confianza y más.
“Hombre/Mujer: Vocalizaciones de género que varían entre más masculinas y más femeninas.
Confianza: La firmeza de la voz, entre la timidez y la audacia.
Flotabilidad: La densidad del sonido, que oscila entre deflación y flotabilidad.
Confianza: El grado de certeza en la voz, entre timidez y confianza.
Entusiasmo: Emoción en la voz, entre calma y entusiasmo.
Nasal: La apertura de la voz, que oscila entre clara y nasal.
Relajación: La presión en la voz, entre tensión y relajación.
Suavidad: La textura del sonido, entre suave y entrecortado.
Suavidad: La energía detrás del sonido, en algún lugar entre suave y poderoso.
Estrechez: Qué tan contenido está el sonido, que oscila entre tenso y sin aliento. "
Los usuarios pueden ajustar estas propiedades en tiempo real mediante controles deslizantes virtuales, lo que hace que la personalización sea simple y directa. Esta función está actualmente disponible en la plataforma virtual de Hume y los usuarios pueden acceder a ella simplemente registrándose de forma gratuita.
El control por voz está actualmente disponible en versión beta y se integra con la interfaz de voz empática (EVI) de Hume, lo que lo hace disponible para una amplia gama de aplicaciones. Los desarrolladores pueden seleccionar una voz base, ajustar sus características y obtener una vista previa de los resultados en tiempo real. Este proceso garantiza la repetibilidad y la estabilidad de una sesión a otra, que es una característica clave de las aplicaciones en tiempo real, como los bots de servicio al cliente o los asistentes virtuales.
El impacto de EVI2 es evidente en la funcionalidad de control por voz. Los primeros modelos introdujeron características como indicaciones conversacionales y capacidades multilingües que ampliaron el alcance de las aplicaciones de inteligencia artificial de voz. Por ejemplo, EVI2 admite tiempos de respuesta inferiores a segundos para conversaciones naturales e instantáneas. También permite ajustar dinámicamente los estilos de conversación durante las interacciones, lo que la convierte en una herramienta versátil para las empresas.
Este movimiento es precisamente para resolver el problema de la dependencia de los sonidos preestablecidos en la industria de la IA. Muchas marcas o aplicaciones suelen tener dificultades para encontrar sonidos que satisfagan sus necesidades. El objetivo de Hume es desarrollar una IA de voz emocionalmente sensible y promover el progreso de la industria. Cuando EVI2 se lance en septiembre de 2024, ya mejorará significativamente la latencia y la rentabilidad de la voz y proporcionará una alternativa segura a las funciones de ajuste de voz.
El enfoque impulsado por la investigación de Hume está en el centro del desarrollo de productos, combinando grabaciones de voz interculturales y datos de encuestas emocionales. Esta metodología constituye la base de EVI2 y del control de voz recientemente lanzado, lo que le permite capturar la percepción humana del sonido con todo detalle.
Actualmente, el control por voz se lanzó en la versión beta y se combina con la interfaz de voz empática (EVI) de Hume para admitir una variedad de escenarios de aplicaciones. Los desarrolladores pueden seleccionar un sonido base, ajustar sus características y obtener una vista previa de los resultados en tiempo real, garantizando coherencia y estabilidad en aplicaciones en tiempo real como servicio al cliente o asistentes virtuales.
A medida que la competencia se intensifica en el mercado, el posicionamiento personalizado de voz e inteligencia emocional de Hume lo hacen destacar en el campo de la inteligencia artificial de voz. En el futuro, Hume planea ampliar las funciones de control por voz, agregar dimensiones ajustables, optimizar la calidad del sonido y aumentar la selección de sonidos básicos.
Blog oficial: https://www.hume.ai/blog/introtaining-voice-control
Reflejos:
**Hume AI ha lanzado una función de "control de voz", que permite a los usuarios crear fácilmente voces de IA personalizadas. **
?️ ** Esta función no requiere conocimientos de codificación y los usuarios pueden ajustar las características del sonido mediante controles deslizantes. **
**Hume está diseñado para satisfacer diversas necesidades de aplicaciones a través de inteligencia artificial de voz personalizada y emocionalmente inteligente. **
En general, la función de "control de voz" de Hume AI brinda una comodidad sin precedentes para la personalización de la voz de la IA. Sus funciones de personalización e inteligencia emocional ampliarán enormemente la aplicación de la voz de la IA en varios campos. Vale la pena esperar su desarrollo y actualización futuros. .