Nvidia lanza "Sound Magic" Fugatto: ¡Puedes tocar música con texto! -Ai Artículo

Autor：Eve Cole Fecha de actualización：2025-01-29 16:32:01

Nvidia lanzó un increíble modelo de audio de IA Fugatto, como un palo mágico, dando a los usuarios la capacidad de controlar el sonido a través de las palabras. Fugatto no es solo un generador de audio simple. Las perspectivas de aplicación de este modelo son ampliamente utilizadas. Su potente capacidad de procesamiento multi -lenguaje y de procesamiento multiacente, así como un control preciso de los detalles del sonido, muestra su gran fuerza técnica.

Recuerde la escena del protagonista en la película de ciencia ficción, ¿puedes controlar el sonido del sonido a voluntad ahora, esta habilidad mágica ya no es fantasía! Controle la música, los sonidos y la voz por texto, y cree una variedad de maravillosos efectos auditivos.

Fugatto, completo conocido como "transformador de audio de generación fundamental Opus1", es un modelo de procesamiento de audio basado en la generación de tecnología de IA. A diferencia de otros modelos de IA que solo pueden crear música o modificar la voz, Fugatto tiene capacidades más potentes, puede generar o convertir cualquier mezcla de música, voz y sonido, y puede comprender y ejecutar las instrucciones de los usuarios que ingresan por archivos de texto y audio.

Las potentes características de Fugatto hacen que los usuarios de todos los ámbitos de la vida son increíbles productores musicales, compañías de publicidad, desarrolladores de herramientas de aprendizaje de idiomas y desarrolladores de juegos. Los productores musicales pueden probar rápidamente diferentes estilos musicales, voces e instrumentos musicales, e incluso agregar efectos o mejorar la calidad del sonido a las canciones existentes. Las compañías de publicidad pueden usarlo para agregar diferentes acentos y emociones a la publicidad, y promover fácilmente la publicidad a diferentes regiones y grupos objetivo. Los desarrolladores de herramientas de aprendizaje de idiomas pueden usar Fugatto para convertir el contenido del plan de estudios en el sonido que cualquier usuario desea, como la voz de la familia o los amigos para que el aprendizaje sea más personalizado. Los desarrolladores de juegos pueden usar Fugatto para modificar el material de sonido en el juego en tiempo real de acuerdo con el proceso del juego, o ingresar la creación de nuevos efectos de sonido del juego de acuerdo con las instrucciones de texto y la entrada de audio.

La magia de Fugatto es que puede entender y generar sonido como humanos. No solo puede ejecutar las instrucciones específicas dadas por el usuario, sino también crear nuevas voces sin precedentes. Por ejemplo, puede hacer el pequeño grito y dejar que la brisa del saxofón haga un gato.

音频声波

Otra capacidad innovadora de Fugatto es que puede combinar las instrucciones aprendidas por separado durante el proceso de entrenamiento para generar efectos más complejos. Por ejemplo, los usuarios pueden pedirle que genere una voz de acento francés con emociones tristes. Lo que es aún más sorprendente es que Fugatto también permite a los usuarios hacer ajustes sutiles a las instrucciones, como controlar el fuerte grado de acento o la intensidad de la tristeza, para que los usuarios puedan crear como artistas.

Fugatto también puede generar el sonido de los cambios con el tiempo. Los usuarios pueden controlar con precisión el cambio de sonido y crear una variedad de efectos de sonido vívidos.

Fugatto es el resultado de desarrollados conjuntamente por investigadores de todo el mundo. Su origen diversificado permite que Fugatto tenga capacidades de procesamiento polifónicas y de lenguaje múltiple más potente.

El nacimiento de Fugatto es la cristalización de Nvidia en los campos del modelado de voz, la codificación de audio y la comprensión de audio. Utiliza 2.5 mil millones de parámetros y está entrenado en el clúster del sistema NVIDIA DGX equipado con 32 GPU NVIDIA H100Tensor Core.

La aparición de fugatto marca que la tecnología de procesamiento de audio ha entrado en una nueva era. ¡Traerá posibilidades ilimitadas a varios campos, como música, películas, juegos, educación, y esperamos crear festines auditivos más increíbles!

Blog oficial: https://blogs.nvidia.com/blog/fugatto-gen-sound-model/

La aparición de Fugatto no es solo el progreso de la ciencia y la tecnología, sino también una extensión infinita de la creatividad. Proporciona a los artistas y desarrolladores herramientas creativas sin precedentes, y también indica las infinitas posibilidades de la tecnología de audio en el futuro. Esperemos y veamos cómo Fugatto cambiará nuestro mundo de la audición.