NVIDIA lanza Fugatto, la "varita mágica del sonido": ¡puedes reproducir música con palabras!

Autor：Eve Cole Fecha de actualización：2025-01-09 09:24:01

Fugatto, el último modelo de IA lanzado por NVIDIA, parece tener un poder mágico y revoluciona por completo la tecnología de procesamiento de audio. No sólo puede generar una mezcla de música, voz y sonido, sino también comprender y ejecutar instrucciones ingresadas por los usuarios a través de archivos de texto y audio, lo que permite crear una variedad de maravillosos efectos auditivos. El editor de Downcodes lo llevará a comprender en profundidad este disruptivo modelo de IA y a ver cómo puede hacer realidad escenas de películas de ciencia ficción.

Fugatto, cuyo nombre completo es "Fundational Generative Audio Transformer Opus1", es un modelo de procesamiento de audio basado en tecnología de IA generativa. A diferencia de otros modelos de IA que sólo pueden crear música o modificar el habla, Fugatto tiene la capacidad más poderosa de generar o convertir cualquier mezcla de música, voz y sonidos, y es capaz de comprender y ejecutar instrucciones ingresadas por los usuarios a través de archivos de texto y audio.

Las potentes funciones de Fugatto han sorprendido a usuarios de todos los ámbitos de la vida, incluidos productores de música, agencias de publicidad, desarrolladores de herramientas de aprendizaje de idiomas y desarrolladores de juegos. Los productores musicales pueden usarlo para experimentar rápidamente con diferentes estilos musicales, voces e instrumentos, e incluso agregar efectos o mejorar la calidad del sonido de las canciones existentes. Las empresas de publicidad pueden utilizarlo para añadir diferentes acentos y emociones al doblaje de anuncios y promocionar fácilmente anuncios en diferentes regiones y grupos objetivo. Los desarrolladores de herramientas de aprendizaje de idiomas pueden utilizar Fugatto para convertir el contenido del curso en cualquier voz que el usuario desee, como la de un familiar o amigo, para que el aprendizaje sea más personalizado. Los desarrolladores de juegos pueden usar Fugatto para modificar los materiales de sonido del juego en tiempo real según el progreso del juego, o crear nuevos efectos de sonido del juego basados en comandos de texto y entradas de audio.

La magia de Fugatto es su capacidad de comprender y generar sonidos como un humano. No sólo puede ejecutar instrucciones específicas dadas por el usuario, sino que también puede crear nuevos sonidos que nunca antes se habían escuchado. Por ejemplo, puede hacer que la trompeta emita un sonido de perro y el saxofón emita un sonido de gato. Siempre que el usuario pueda describirlo, Fugatto puede crearlo.

Nota sobre la fuente de la imagen: la imagen es generada por IA y la imagen está autorizada por el proveedor de servicios Midjourney

Otra habilidad innovadora de Fugatto es su capacidad de combinar instrucciones aprendidas por separado durante el entrenamiento para producir efectos más complejos. Por ejemplo, los usuarios pueden pedirle que genere una voz con acento francés con una emoción triste. Lo que es aún más sorprendente es que Fugatto también permite a los usuarios realizar ajustes sutiles en las instrucciones, como controlar el grosor del acento o la intensidad de la tristeza, lo que les permite crear como un artista.

Fugatto también puede generar sonidos que cambian con el tiempo, como una tormenta que se acerca desde la distancia y un trueno que aumenta en intensidad antes de desvanecerse lentamente en la distancia. Los usuarios pueden controlar con precisión el proceso de cambio de sonido y crear una variedad de efectos de sonido vívidos.

Fugatto es un esfuerzo de colaboración entre investigadores de todo el mundo, con miembros del equipo de países como India, Brasil, China, Jordania y Corea del Sur. Sus diversos orígenes le dan a Fugatto mayores capacidades multiacento y multilingüe.

El nacimiento de Fugatto es la culminación de años de investigación de NVIDIA en los campos del modelado de voz, codificación de audio y comprensión de audio. Utiliza 2.500 millones de parámetros y está entrenado en un grupo de sistemas NVIDIA DGX equipados con 32 GPU NVIDIA H100Tensor Core.

La aparición de Fugatto marca una nueva era en la tecnología de procesamiento de audio. Brindará posibilidades ilimitadas a diversos campos, como la música, las películas, los juegos, la educación, etc. ¡Esperemos que cree más fiestas auditivas sorprendentes!

Blog oficial: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

La aparición de Fugatto presagia el enorme potencial de la inteligencia artificial en el campo del audio. Sus potentes funciones y métodos de operación convenientes sin duda traerán una innovación sin precedentes a todos los ámbitos de la vida. ¡Esperemos y veamos cómo Fugatto seguirá dando forma a nuestro mundo auditivo en el futuro!