Hume AI anunciou o lançamento de seu recurso experimental “Voice Control”, um recurso inovador que permite aos usuários personalizar facilmente vozes de IA personalizadas sem qualquer programação ou conhecimento de IA. Através de controles deslizantes virtuais intuitivos, os usuários podem ajustar com precisão dez dimensões diferentes de características de voz, como gênero, confiança, entusiasmo, etc., para criar uma voz única que se adapte a vários cenários de aplicação. Este recurso se baseia no “Empathic Voice Interface 2” (EVI2) lançado anteriormente pela Hume, melhorando ainda mais a naturalidade, a expressão emocional e a personalização da fala.
Hume AI, uma startup focada em interfaces de voz emocionalmente inteligentes, lançou recentemente um recurso experimental chamado “controle de voz”.
Esta nova ferramenta foi projetada para ajudar desenvolvedores e usuários a criar sons de IA personalizados sem qualquer codificação, engenharia de prompt de IA ou habilidades de design de som. Os usuários podem personalizar facilmente o som para atender às suas necessidades, ajustando com precisão as características do som.
Este novo recurso baseia-se no Empathic Voice Interface 2 (EVI2), lançado anteriormente pela empresa, que melhorou a naturalidade, a capacidade de resposta emocional e a personalização da fala. Ao contrário da tecnologia tradicional de clonagem de voz, os produtos da Hume concentram-se em fornecer vozes únicas e expressivas para atender às necessidades de aplicações tão diversas como chatbots de atendimento ao cliente, assistentes digitais, professores, guias turísticos e recursos de acessibilidade.
O controle de voz permite que os desenvolvedores ajustem as características da voz em dez dimensões diferentes, incluindo gênero, assertividade, entusiasmo, confiança e muito mais.
“Masculino/Feminino: Vocalizações de gênero que variam entre mais masculino e mais feminino.
Confiança: A firmeza da voz, entre a timidez e a ousadia.
Flutuabilidade: A densidade do som, variando entre deflação e flutuabilidade.
Confiança: O grau de certeza na voz, algo entre tímido e confiante.
Entusiasmo: Excitação na voz, algo entre a calma e o entusiasmo.
Nasal: A abertura da voz, variando entre clara e nasal.
Relaxamento: A pressão na voz, entre a tensão e o relaxamento.
Suavidade: A textura do som, algo entre suave e staccato.
Suavidade: A energia por trás do som, algo entre suave e poderoso.
Aperto: Quão contido é o som, variando entre tenso e ofegante. "
Os usuários podem ajustar essas propriedades em tempo real por meio de controles deslizantes virtuais, tornando a personalização simples e direta. Atualmente, esse recurso está disponível na plataforma virtual do Hume e os usuários podem acessá-lo simplesmente registrando-se gratuitamente.
O controle de voz está atualmente disponível em versão beta e integra-se ao Empathic Voice Interface (EVI) do Hume, tornando-o disponível para uma ampla gama de aplicações. Os desenvolvedores podem selecionar uma voz base, ajustar suas características e visualizar os resultados em tempo real. Esse processo garante repetibilidade e estabilidade de sessão para sessão, que é um recurso fundamental de aplicativos em tempo real, como bots de atendimento ao cliente ou assistentes virtuais.
O impacto do EVI2 é evidente na funcionalidade de controle de voz. Os primeiros modelos introduziram recursos como prompts de conversação e recursos multilíngues que ampliaram o escopo dos aplicativos de IA de voz. Por exemplo, o EVI2 suporta tempos de resposta de menos de um segundo para conversas naturais e instantâneas. Também permite que os estilos de fala sejam ajustados dinamicamente durante as interações, tornando-o uma ferramenta versátil para empresas.
Essa mudança visa justamente resolver o problema da dependência de sons predefinidos na indústria de IA. Muitas marcas ou aplicações muitas vezes têm dificuldade em encontrar sons que atendam às suas necessidades. O objetivo de Hume é desenvolver IA de voz emocionalmente sensível e promover o progresso da indústria. Quando o EVI2 for lançado em setembro de 2024, já melhorará significativamente a latência e a relação custo-benefício da voz e fornecerá uma alternativa segura às funções de ajuste de voz.
A abordagem orientada para a pesquisa de Hume está no centro do desenvolvimento de produtos, combinando gravações de voz interculturais e dados de pesquisas emocionais. Esta metodologia constitui a base do EVI2 e do controle de voz recém-lançado, permitindo capturar a percepção humana do som nos mínimos detalhes.
Atualmente, o controle de voz foi lançado na versão beta e é combinado com o Empathic Voice Interface (EVI) do Hume para oferecer suporte a uma variedade de cenários de aplicação. Os desenvolvedores podem selecionar um som base, ajustar suas características e visualizar os resultados em tempo real, garantindo consistência e estabilidade em aplicações em tempo real, como atendimento ao cliente ou assistentes virtuais.
À medida que a concorrência se intensifica no mercado, a voz personalizada e o posicionamento de inteligência emocional da Hume fazem com que ela se destaque no campo da IA de voz. No futuro, Hume planeja expandir as funções de controle de voz, adicionar dimensões ajustáveis, otimizar a qualidade do som e aumentar a seleção de sons básicos.
Blog oficial: https://www.hume.ai/blog/introduzindo-voice-control
Destaque:
?*Hume AI lançou uma função de "controle de voz", permitindo aos usuários criar facilmente vozes de IA personalizadas. **
?️ ** Este recurso não requer habilidades de codificação e os usuários podem ajustar as características do som por meio de controles deslizantes. **
? **O Hume foi projetado para atender a diversas necessidades de aplicações por meio de IA de voz personalizada e emocionalmente inteligente. **
Em suma, a função de "controle de voz" do Hume AI traz uma conveniência sem precedentes para a personalização de voz da IA. Seus recursos de personalização e inteligência emocional expandirão enormemente a aplicação da voz da IA em vários campos. .