Doubao App lançou o mais recente modelo grande de voz "ponta a ponta" em 20 de janeiro de 2025, fazendo uma grande atualização na função de chamada de voz em tempo real. Esta atualização marca que Doubao fez progressos significativos no campo da interação de voz. Ele não depende mais das soluções tradicionais em cascata ASR, LLM e TTS, mas integra reconhecimento, compreensão e geração de fala no mesmo modelo, alcançando um desempenho mais suave e mais. experiência de interação de voz inteligente. O foco desta atualização é melhorar o antropomorfismo da interação de voz, permitindo que a IA compreenda e responda melhor às emoções humanas.
Em 20 de janeiro de 2025, o Doubao App lançou oficialmente seu mais recente modelo de voz "ponta a ponta" e fez atualizações importantes na função de chamada de voz em tempo real. Este progresso marca mais um salto para Doubao no campo da interação de voz, superando as soluções em cascata anteriores de ASR (reconhecimento automático de fala), LLM (modelo de linguagem grande) e TTS (Tensheng Audio), integrando reconhecimento de fala, compreensão e geração integradas. no mesmo modelo.
Após testes do “Smart Emergence”, o maior destaque da nova versão do Doubao é que ele possui capacidade de expressão e saída emocional semelhantes às humanas, melhorando a fluência e o nível de inteligência do diálogo. Em particular, os modos “Soul Singer” e “Various Master” permitem que Doubao não apenas cante, mas também execute uma rica dramatização, tornando-se um novo favorito para a interação do usuário. Por exemplo, quando os usuários pediram a Doubao para imitar a voz da celebridade Yu Shuxin, Doubao não apenas replicou com sucesso o tom do personagem, mas também expressou de forma divertida sua personalidade única.
O que vale ainda mais a pena mencionar é que Doubao é capaz de improvisar músicas em conversas naturais, sem a necessidade de instruções complicadas ou instruções profissionais. Os usuários podem pedir ao Doubao para cantar à vontade, podendo até especificar o tema da letra. Embora o desempenho de Doubao ocasionalmente cometesse pequenos erros, sua velocidade de reação e capacidade de improvisação foram surpreendentes, demonstrando sua forte habilidade antropomórfica.
Além disso, os dois modos de personalidade recém-adicionados do Doubao, nomeadamente “a bolsinha” e “o mestre exagerado”, também trazem frescor aos usuários. Esses padrões de personalidade permitem que Doubao expresse diferentes emoções e estilos em diferentes situações, aumentando assim a diversão e o realismo das interações.
Hoje, com o crescente desenvolvimento da tecnologia de interação por voz, esta atualização do Doubao não só expande os cenários de aplicação da IA para companheirismo emocional, aconselhamento psicológico e outros campos, mas também torna as capacidades de comunicação emocional da IA mais próximas dos humanos. Esta transformação permitirá, sem dúvida, que Doubao ocupe um lugar no mercado altamente competitivo e lidere o desenvolvimento futuro da interação de IA.
Esta atualização do Doubao App não apenas alcança um avanço tecnológico, mas, mais importante ainda, alcança um salto qualitativo na experiência do usuário, fornecendo uma nova direção para o desenvolvimento futuro da interação de IA, e vale a pena esperar por mais inovações em seu seguimento. acima.