Amazon lança BASE TTS, o maior modelo de conversão de texto em fala de todos os tempos

Autor：Eve Cole Data da Última Atualização：2025-02-02 06:16:01

A equipe AGI da Amazon lançou recentemente o BASE TTS, um modelo de conversão de texto em fala com 98 bilhões de parâmetros que foi treinado usando 100.000 horas de gravação de dados. É atualmente o maior modelo desse tipo. O lançamento deste modelo marca um progresso significativo na tecnologia de conversão de texto em fala. Espera-se que seu grande número de parâmetros e enormes dados de treinamento melhorem significativamente a naturalidade e o antropomorfismo da síntese de fala e proporcionem aos usuários uma melhor experiência de voz. O objetivo da equipe é aplicar este modelo a aplicações de aprendizagem para melhorar ainda mais a qualidade das vozes humanas em aplicações de conversão de texto em fala.

A equipe Amazon AGI lançou o BASE TTS, o maior modelo de conversão de texto em fala de todos os tempos, com 98 bilhões de parâmetros e treinado usando 100.000 horas de gravação de dados. A equipe planeja usar este modelo em aplicativos de aprendizagem para melhorar a qualidade das vozes humanas em aplicativos de conversão de texto em fala.

O lançamento do modelo BASE TTS demonstra a forte força da Amazon no campo da inteligência artificial e sua visão para a tecnologia de voz do futuro. Ele anuncia a chegada de vozes artificiais mais naturais e realistas, trazendo possibilidades mais ricas para vários cenários de aplicação. No futuro, podemos esperar que o BASE TTS desempenhe um papel em mais campos e forneça aos usuários serviços melhores e mais convenientes.