A mais recente tecnologia de geração de voz do Google, mais uma vez, atualizou o padrão do setor. Essa tecnologia inovadora não apenas gera conversas naturais de até 2 minutos em 3 segundos, mas também garante coerência de voz e desempenho da qualidade do som entre vários alto -falantes. A tecnologia tem sido usada em vários produtos do Google, como Gemini Live e Project Astra, e está mudando a maneira como as pessoas interagem com assistentes digitais e ferramentas de IA em todo o mundo.
Nos últimos anos, o Google tem se concentrado na pesquisa no campo da geração de áudio. Os modelos que eles desenvolveram podem criar voz natural de alta qualidade através de uma variedade de métodos de entrada, como texto, controle de ritmo e sons específicos. Recentemente, o Google se uniu a várias equipes internas para lançar dois recursos importantes: a visão geral do Audio Notebook pode converter documentos enviados em conversas vívidas;
Esses avanços são baseados em vários resultados de pesquisas anteriores do Google. De codecs de áudio neural do SoundStream, à estrutura de modelagem de idiomas Audiolm Audio, até o SoundStorm, que pode gerar mais de 30 segundos de conversas, o Google está constantemente inovando no campo da geração de voz. O último avanço tecnológico usa codecs de voz mais eficientes que podem comprimir áudio a uma taxa de bits baixa de 600 bits por segundo, mantendo a qualidade da saída.
Para alcançar esse avanço tecnológico, o Google desenvolveu uma arquitetura especial de transformadores que pode processar com eficiência a hierarquia de informações. O modelo é pré-treinado primeiro em centenas de milhares de horas de dados de fala e depois ajustado em um conjunto de dados de conversação de alta qualidade que contém recursos naturais, como pausas de tom em conversas reais. Para garantir o uso responsável da tecnologia, o Google também integrou a tecnologia Synthid para adicionar marcas d'água ao conteúdo de áudio gerado pela IA.
Olhando para o futuro, o Google está trabalhando para melhorar a suavidade, a qualidade do som do modelo e adicionar controles mais detalhados. Combinada com a série de modelos Gemini, essa tecnologia deve desempenhar um papel importante na melhoria da experiência educacional e na acessibilidade do conteúdo, trazendo mais possibilidades à tecnologia de voz.
A importância dessa tecnologia não está apenas em sua melhoria de desempenho, mas também na abertura de um novo capítulo para a interação humano-computador. Ao transformar inovações tecnológicas complexas em maneiras naturais e intuitivas de interagir, o Google está estabelecendo a base para a próxima geração de experiências digitais.
Detalhes: https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generação/
A tecnologia de geração de voz do Google não é apenas um salto tecnológico, mas também um avanço revolucionário na interação humano-computador, trazendo possibilidades ilimitadas ao futuro mundo digital.