La principal actualización de Google de la tecnología de voz de IA: 2 minutos de diálogo y 3 segundos de generación, lo que cambiará por completo la forma en que la interacción humana -computadora - AI artículos

Autor：Eve Cole Fecha de actualización：2025-02-15 12:48:02

La última tecnología de generación de voz de Google ha renovado una vez más el estándar de la industria. Esta tecnología innovadora no solo genera conversaciones naturales de hasta 2 minutos en 3 segundos, sino que también garantiza la coherencia de voz y el rendimiento de calidad de sonido entre múltiples altavoces. La tecnología se ha utilizado en múltiples productos de Google, como Gemini Live y Project Astra, y está cambiando la forma en que las personas interactúan con asistentes digitales y herramientas de IA en todo el mundo.

En los últimos años, Google se ha centrado en la investigación en el campo de la generación de audio. Los modelos que desarrollaron pueden crear una voz natural de alta calidad a través de una variedad de métodos de entrada como texto, control de ritmo y sonidos específicos. Recientemente, Google se ha asociado con múltiples equipos internos para lanzar dos características importantes: la descripción de audio de NotebookLM puede convertir los documentos cargados en conversaciones vívidas;

Estos avances se basan en varios resultados de investigación anteriores de Google. Desde códecs de audio neuronal SoundStream hasta Audiolm Audio Language Modeling Framework, hasta SoundStorm, que puede generar más de 30 segundos de conversaciones, Google está constantemente innovando en el campo de la generación de voz. El último avance tecnológico utiliza códecs de voz más eficientes que pueden comprimir el audio a una velocidad de bits baja de 600 bits por segundo mientras mantienen la calidad de la salida.

Para lograr este avance tecnológico, Google ha desarrollado una arquitectura de transformadores especial que puede procesar eficientemente la jerarquía de información. El modelo se entrena primero en cientos de miles de horas de datos del habla y luego se ajusta en un conjunto de datos de conversación de alta calidad que contiene características naturales como pausas de tono en conversaciones reales. Para garantizar el uso responsable de la tecnología, Google también ha integrado la tecnología Synthid para agregar marcas de agua al contenido de audio generado por AI.

Mirando hacia el futuro, Google está trabajando para mejorar la suavidad, la calidad del sonido del modelo y agregar controles más detallados. Combinado con la serie de modelos Gemini, se espera que esta tecnología desempeñe un papel importante en la mejora de la experiencia educativa y la accesibilidad del contenido, lo que brinda más posibilidades a la tecnología de voz.

La importancia de esta tecnología no solo está en su mejora del rendimiento, sino también en su apertura de un nuevo capítulo para la interacción humana-computadora. Al transformar innovaciones tecnológicas complejas en formas naturales e intuitivas de interactuar, Google está sentando las bases para la próxima generación de experiencias digitales.

Detalles: https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/

La tecnología de generación de voz de Google no es solo un salto tecnológico, sino también un avance revolucionario en la interacción humana-computadora, que trae posibilidades ilimitadas al futuro mundo digital.