¡Producido por NVIDIA! Modelo de audio AI Fugatto: ingrese texto y audio para generar música y efectos de sonido - artículo de AI

Autor：Eve Cole Fecha de actualización：2025-01-25 11:00:03

NVIDIA ha lanzado un revolucionario modelo de IA de procesamiento y generación de audio llamado Fugatto, que tiene 2.500 millones de parámetros y está diseñado para brindar flexibilidad y creatividad sin precedentes al campo de la música y la creación de sonido. Fugatto combina indicaciones de texto y tecnología avanzada de síntesis de audio, admite la entrada de texto y audio, rompe las limitaciones de los modelos tradicionales de generación de audio, permite a los usuarios crear y modificar en tiempo real y generar una variedad de efectos de sonido novedosos. Su innovadora tecnología "Composable Audio Representation Transformation" (ComposableART) brinda a los usuarios un control sin precedentes y un control preciso sobre el sonido.

En el campo de la música y la creación sonora, la combinación de tecnología y creatividad siempre ha enfrentado muchos desafíos. Los modelos de IA existentes a menudo solo son buenos para tareas específicas y carecen de una amplia adaptabilidad, lo que limita el papel auxiliar de la IA en la producción musical. Para que la IA sirva mejor a la producción de música y audio, se necesita urgentemente un modelo universal que pueda responder de manera flexible a diversas necesidades creativas. Para ello, NVIDIA lanzó Fugatto, un modelo de generación y procesamiento de audio con 2.500 millones de parámetros.

Fugatto está diseñado para proporcionar un espacio muy flexible para la entrada de voz y la experimentación creativa mediante la combinación de indicaciones de texto con capacidades avanzadas de síntesis de audio. Por ejemplo, puede transformar una melodía de piano en una voz cantada o darle a la trompeta un sonido inesperado.

Fugatto no solo admite la entrada de texto, sino que también admite la entrada de audio opcional, rompiendo las limitaciones de los modelos tradicionales de generación de audio, permitiendo a los artistas y desarrolladores crear y modificar en tiempo real y generar nuevos tipos de sonidos sin problemas.

En el aspecto técnico, Fugatto utiliza un enfoque innovador para la generación de datos que va más allá del aprendizaje supervisado tradicional. Su entrenamiento se basa no solo en conjuntos de datos regulares, sino también en conjuntos de datos generados especialmente, creando una rica variedad de tareas de conversión y audio. Además, Fugatto utiliza modelos de lenguaje grandes (LLM) para mejorar las capacidades de generación de instrucciones y comprender mejor la relación entre las indicaciones de audio y texto.

Una innovación importante es la Transformación de Representación de Audio Composable (ComposableART), una técnica utilizada en el tiempo de inferencia para combinar, interpolar o negar de manera flexible diferentes instrucciones de generación de audio. ComposableART brinda a los usuarios un mayor control sobre el proceso de síntesis de audio, permitiéndoles navegar con precisión por la paleta sonora de Fugatto para crear fenómenos sonoros únicos.

La arquitectura de Fugatto se basa en el modelo Transformer mejorado y utiliza modificaciones específicas, como la normalización de capa adaptativa, para mantener la coherencia bajo múltiples condiciones de entrada y admitir instrucciones de combinación complejas. Las pruebas preliminares muestran que Fugatto se desempeña bien en los puntos de referencia comunes, particularmente en síntesis y transformación de sonido, mostrando mayores capacidades que otros modelos profesionales.

El lanzamiento de Fugatto marca un avance importante en la generación de audio mediante IA, superando las limitaciones tradicionales y proporcionando una herramienta potente y flexible para la producción de audio creativo. Sus posibles aplicaciones en múltiples campos, como la música, los juegos, el entretenimiento y la educación, significan que la tecnología de IA seguirá desempeñando un papel importante en el apoyo a la creatividad humana.

Blog oficial: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Documento: https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf

Destacar:

Fugatto es un modelo de IA de audio lanzado por NVIDIA. Tiene 2.500 millones de parámetros, admite entrada de texto y audio y ayuda a la creación de música y sonido.

Utilizando métodos innovadores de generación de datos y tecnología de transformación de representación de audio combinable, los usuarios pueden generar y modificar sonidos de manera flexible.

Las pruebas preliminares muestran que Fugatto supera a varios modelos profesionales en síntesis y transformación de audio, lo que demuestra su fuerte potencial creativo.

Con todo, Fugatto, con sus potentes funciones y características flexibles, aporta nuevas posibilidades a los campos de la creación musical y el diseño de sonido, lo que indica que la aplicación de la IA en la industria creativa será más extensa y profunda. Esperamos que Fugatto nos traiga más sorpresas en el futuro.