Hume AI anunciou o lançamento de seu revolucionário recurso de controle de voz, um recurso experimental que permite aos usuários criar vozes de IA altamente personalizadas sem qualquer codificação ou conhecimento. Este recurso é baseado na Empathic Voice Interface 2 (EVI2) da Hume, que aprimora ainda mais a naturalidade, a expressão emocional e a personalização da fala, fornecendo aos desenvolvedores e usuários um nível de controle sem precedentes para criar soluções que atendam a uma variedade de necessidades de aplicações. como chatbots de atendimento ao cliente, assistentes digitais, ferramentas educacionais e muito mais. Espera-se que esta tecnologia inovadora revolucione a indústria de IA de voz e forneça aos usuários uma experiência de voz mais atenciosa e personalizada.
Hume AI, uma startup focada em interfaces de voz emocionalmente inteligentes, lançou recentemente um recurso experimental chamado “controle de voz”.
Esta nova ferramenta foi projetada para ajudar desenvolvedores e usuários a criar sons de IA personalizados sem qualquer codificação, engenharia de prompt de IA ou habilidades de design de som. Os usuários podem personalizar facilmente o som para atender às suas necessidades, ajustando com precisão as características do som.
Este novo recurso baseia-se no Empathic Voice Interface 2 (EVI2), lançado anteriormente pela empresa, que melhorou a naturalidade, a capacidade de resposta emocional e a personalização da fala. Ao contrário da tecnologia tradicional de clonagem de voz, os produtos da Hume concentram-se em fornecer vozes únicas e expressivas para atender às necessidades de aplicações tão diversas como chatbots de atendimento ao cliente, assistentes digitais, professores, guias turísticos e recursos de acessibilidade.
O controle de voz permite que os desenvolvedores ajustem as características da voz em dez dimensões diferentes, incluindo gênero, assertividade, entusiasmo, confiança e muito mais.
“Masculino/Feminino: Vocalizações de gênero que variam entre mais masculino e mais feminino.
Confiança: A firmeza da voz, entre a timidez e a ousadia.
Flutuabilidade: A densidade do som, variando entre deflação e flutuabilidade.
Confiança: O grau de certeza na voz, algo entre tímido e confiante.
Entusiasmo: Excitação na voz, algo entre a calma e o entusiasmo.
Nasal: A abertura da voz, variando entre clara e nasal.
Relaxamento: A pressão na voz, entre a tensão e o relaxamento.
Suavidade: A textura do som, algo entre suave e staccato.
Suavidade: A energia por trás do som, algo entre suave e poderoso.
Aperto: Quão contido é o som, variando entre tenso e ofegante. "
Os usuários podem ajustar essas propriedades em tempo real por meio de controles deslizantes virtuais, tornando a personalização simples e direta. Atualmente, esse recurso está disponível na plataforma virtual do Hume e os usuários podem acessá-lo simplesmente registrando-se gratuitamente.
O controle de voz está atualmente disponível em versão beta e integra-se ao Empathic Voice Interface (EVI) do Hume, tornando-o disponível para uma ampla gama de aplicações. Os desenvolvedores podem selecionar uma voz base, ajustar suas características e visualizar os resultados em tempo real. Esse processo garante repetibilidade e estabilidade de sessão para sessão, que é um recurso fundamental de aplicativos em tempo real, como bots de atendimento ao cliente ou assistentes virtuais.
O impacto do EVI2 é evidente na funcionalidade de controle de voz. Os primeiros modelos introduziram recursos como prompts de conversação e recursos multilíngues que ampliaram o escopo dos aplicativos de IA de voz. Por exemplo, o EVI2 suporta tempos de resposta de menos de um segundo para conversas naturais e imediatas. Também permite que os estilos de fala sejam ajustados dinamicamente durante as interações, tornando-o uma ferramenta versátil para empresas.
Essa mudança visa justamente resolver o problema da dependência de sons predefinidos na indústria de IA. Muitas marcas ou aplicações muitas vezes têm dificuldade em encontrar sons que atendam às suas necessidades. O objetivo de Hume é desenvolver IA de voz emocionalmente sensível e promover o progresso da indústria. Quando o EVI2 for lançado em setembro de 2024, já melhorará significativamente a latência e a relação custo-benefício da voz e fornecerá uma alternativa segura às funções de ajuste de voz.
A abordagem orientada para a pesquisa de Hume está no centro do desenvolvimento de produtos, combinando gravações de voz interculturais e dados de pesquisas emocionais. Esta metodologia constitui a base do EVI2 e do controle de voz recém-lançado, permitindo capturar a percepção humana do som nos mínimos detalhes.
Atualmente, o controle de voz foi lançado na versão beta e é combinado com o Empathic Voice Interface (EVI) do Hume para oferecer suporte a uma variedade de cenários de aplicação. Os desenvolvedores podem selecionar um som base, ajustar suas características e visualizar os resultados em tempo real, garantindo consistência e estabilidade em aplicações em tempo real, como atendimento ao cliente ou assistentes virtuais.
À medida que a concorrência se intensifica no mercado, a voz personalizada e o posicionamento de inteligência emocional da Hume fazem com que ela se destaque no campo da IA de voz. No futuro, Hume planeja expandir as funções de controle de voz, adicionar dimensões ajustáveis, otimizar a qualidade do som e aumentar a seleção de sons básicos.
Blog oficial: https://www.hume.ai/blog/introduzindo-voice-control
Destaque:
**Hume AI lançou uma função de "controle de voz", permitindo aos usuários criar facilmente vozes de IA personalizadas. **
** Não são necessárias habilidades de codificação para este recurso e os usuários podem ajustar a assinatura sonora com um controle deslizante. **
**O Hume foi projetado para atender a diversas necessidades de aplicação por meio de IA de voz personalizada e emocionalmente inteligente. **
Em suma, a função de "controle de voz" do Hume AI traz novas possibilidades para o campo da personalização de voz da IA. Espera-se que sua conveniência e funções personalizadas promovam a ampla aplicação da tecnologia de IA de voz e proporcionem aos usuários uma experiência de interação de voz mais humana. No futuro, com a melhoria contínua e expansão das funções, espera-se que a Hume AI se torne líder na área de IA de voz.