El equipo AGI de Amazon lanzó recientemente BASE TTS, un modelo de conversión de texto a voz con 98 mil millones de parámetros que se entrenó utilizando 100.000 horas de grabación de datos. Actualmente es el modelo más grande de su tipo. Se espera que el lanzamiento de este modelo marca un progreso significativo en la tecnología de conversión de texto a voz. Se espera que su gran cantidad de parámetros y datos de entrenamiento masivos mejoren significativamente la naturalidad y el antropomorfismo de la síntesis de voz y brinden a los usuarios una mejor experiencia de voz. El objetivo del equipo es aplicar este modelo a aplicaciones de aprendizaje para mejorar aún más la calidad de las voces humanas en aplicaciones de conversión de texto a voz.
El equipo de Amazon AGI lanzó BASE TTS, el modelo de conversión de texto a voz más grande jamás creado, con 98 mil millones de parámetros y entrenado con 100 000 horas de grabación de datos. El equipo planea utilizar este modelo en aplicaciones de aprendizaje para mejorar la calidad de las voces humanas en aplicaciones de conversión de texto a voz.
El lanzamiento del modelo BASE TTS demuestra la gran fortaleza de Amazon en el campo de la inteligencia artificial y su visión para la tecnología de voz futura. Anuncia la llegada de voces artificiales más naturales y realistas, que brindarán posibilidades más ricas a diversos escenarios de aplicación. En el futuro, podemos esperar que BASE TTS desempeñe un papel en más campos y brinde a los usuarios mejores y más convenientes servicios.