Produit par NVIDIA ! Modèle audio IA Fugatto : saisir du texte et de l'audio pour générer de la musique et des effets sonores - Article AI

Auteur：Eve Cole Date de mise à jour：2025-01-25 11:00:03

NVIDIA a lancé un modèle d'IA révolutionnaire de génération et de traitement audio appelé Fugatto, qui comporte 2,5 milliards de paramètres et est conçu pour apporter une flexibilité et une créativité sans précédent au domaine de la musique et de la création sonore. Fugatto combine des invites textuelles et une technologie avancée de synthèse audio, prend en charge la saisie de texte et audio, dépasse les limites des modèles de génération audio traditionnels, permet aux utilisateurs de créer et de modifier en temps réel et de générer une variété de nouveaux effets sonores. Sa technologie innovante « Composable Audio Representation Transformation » (ComposableART) offre aux utilisateurs un contrôle sans précédent et un contrôle précis du son.

Dans le domaine de la musique et de la création sonore, la combinaison de la technologie et de la créativité a toujours été confrontée à de nombreux défis. Les modèles d’IA existants ne sont souvent efficaces que pour des tâches spécifiques et manquent d’une grande adaptabilité, ce qui limite le rôle auxiliaire de l’IA dans la production musicale. Pour que l’IA puisse mieux servir la production musicale et audio, il est urgent de mettre en place un modèle universel capable de répondre de manière flexible aux divers besoins créatifs. À cette fin, NVIDIA a lancé Fugatto, un modèle de génération et de traitement audio doté de 2,5 milliards de paramètres.

Fugatto est conçu pour fournir un espace très flexible pour la saisie vocale et l'expérimentation créative en combinant des invites textuelles avec des capacités avancées de synthèse audio. Il peut par exemple transformer une mélodie de piano en voix chantée, ou encore donner à la trompette un son inattendu.

Fugatto prend non seulement en charge la saisie de texte, mais prend également en charge la saisie audio facultative, brisant les limites des modèles de génération audio traditionnels, permettant aux artistes et aux développeurs de créer et de modifier en temps réel et de générer en douceur de nouveaux types de sons.

Sur le plan technique, Fugatto utilise une approche innovante de génération de données qui va au-delà de l'apprentissage supervisé traditionnel. Sa formation repose non seulement sur des ensembles de données réguliers, mais également sur des ensembles de données spécialement générés, créant une grande variété de tâches audio et de conversion. De plus, Fugatto utilise des modèles de langage étendus (LLM) pour améliorer les capacités de génération d'instructions et mieux comprendre la relation entre les invites audio et textuelles.

Une innovation importante est la transformation de représentation audio Composable (ComposableART), une technique utilisée au moment de l'inférence pour combiner, interpoler ou annuler de manière flexible différentes instructions de génération audio. ComposableART offre aux utilisateurs un plus grand contrôle sur le processus de synthèse audio, leur permettant de naviguer avec précision dans la palette sonore de Fugatto pour créer des phénomènes sonores uniques.

L'architecture de Fugatto est basée sur le modèle Transformer amélioré et utilise des modifications spécifiques telles que la normalisation adaptative des couches pour maintenir la cohérence dans plusieurs conditions d'entrée et prendre en charge des instructions de combinaison complexes. Les tests préliminaires montrent que Fugatto fonctionne bien sur les critères courants, notamment en matière de synthèse et de transformation sonore, montrant de plus grandes capacités que les autres modèles professionnels.

Le lancement de Fugatto marque une avancée importante dans l’IA de génération audio, dépassant les limites traditionnelles et fournissant un outil puissant et flexible pour la production audio créative. Ses applications potentielles dans de multiples domaines tels que la musique, les jeux, le divertissement et l’éducation signifient que la technologie de l’IA continuera à jouer un rôle important en aidant la créativité humaine.

Blog officiel : https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Article : https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf

Souligner:

Fugatto est un modèle d'IA audio lancé par NVIDIA. Il comporte 2,5 milliards de paramètres, prend en charge la saisie de texte et d'audio et assiste la création de musique et de son.

Grâce à des méthodes innovantes de génération de données et à une technologie de transformation de représentation audio combinable, les utilisateurs peuvent générer et modifier des sons de manière flexible.

Des tests préliminaires montrent que Fugatto surpasse plusieurs modèles professionnels en matière de synthèse et de transformation audio, démontrant ainsi son fort potentiel créatif.

Dans l’ensemble, Fugatto, avec ses fonctions puissantes et flexibles, apporte de nouvelles possibilités dans les domaines de la création musicale et de la conception sonore, indiquant que l’application de l’IA dans l’industrie créative sera plus étendue et plus approfondie. Nous attendons avec impatience que Fugatto nous réserve d’autres surprises à l’avenir.