NVIDIA lance la « baguette magique sonore » Fugatto : vous pouvez jouer de la musique avec des mots !

Auteur：Eve Cole Date de mise à jour：2025-01-09 09:24:01

Fugatto, le dernier modèle d'IA publié par NVIDIA, semble avoir un pouvoir magique et révolutionne complètement la technologie de traitement audio. Il peut non seulement générer un mélange de musique, de voix et de sons, mais également comprendre et exécuter les instructions saisies par les utilisateurs via des fichiers texte et audio, permettant ainsi de créer une variété d'effets auditifs merveilleux. L'éditeur de Downcodes vous amènera à avoir une compréhension approfondie de ce modèle d'IA perturbateur et à voir comment il peut donner vie à des scènes de films de science-fiction.

Fugatto, dont le nom complet est « Foundational Generative Audio Transformer Opus1 », est un modèle de traitement audio basé sur la technologie d'IA générative. Contrairement à d'autres modèles d'IA qui peuvent uniquement créer de la musique ou modifier la parole, Fugatto a la capacité la plus puissante de générer ou de convertir n'importe quel mélange de musique, de parole et de sons, et est capable de comprendre et d'exécuter les instructions saisies par les utilisateurs via des fichiers texte et audio.

Les puissantes fonctionnalités de Fugatto ont émerveillé les utilisateurs de tous horizons, notamment les producteurs de musique, les agences de publicité, les développeurs d'outils d'apprentissage des langues et les développeurs de jeux. Les producteurs de musique peuvent l'utiliser pour expérimenter rapidement différents styles musicaux, voix et instruments, et même ajouter des effets ou améliorer la qualité sonore des chansons existantes. Les agences de publicité peuvent l'utiliser pour ajouter différents accents et émotions au doublage de publicités et promouvoir facilement des publicités auprès de différentes régions et groupes cibles. Les développeurs d'outils d'apprentissage des langues peuvent utiliser Fugatto pour convertir le contenu des cours dans la voix souhaitée par l'utilisateur, comme celle d'un membre de la famille ou d'un ami, afin de rendre l'apprentissage plus personnalisé. Les développeurs de jeux peuvent utiliser Fugatto pour modifier les éléments sonores du jeu en temps réel en fonction de la progression du jeu, ou créer de nouveaux effets sonores de jeu basés sur des commandes textuelles et des entrées audio.

La magie de Fugatto réside dans sa capacité à comprendre et à générer des sons comme un humain. Non seulement il peut exécuter des instructions spécifiques données par l'utilisateur, mais il peut également créer de nouveaux sons jamais entendus auparavant. Par exemple, il peut faire sonner la trompette comme un chien et le saxophone avec un son de chat. Tant que l'utilisateur peut le décrire, Fugatto peut le créer.

Remarque sur la source de l'image : l'image est générée par l'IA et l'image est autorisée par le fournisseur de services Midjourney

Une autre capacité révolutionnaire de Fugatto est sa capacité à combiner des instructions apprises séparément pendant l'entraînement pour produire des effets plus complexes. Par exemple, les utilisateurs peuvent lui demander de générer une voix avec un accent français avec une émotion triste. Ce qui est encore plus étonnant, c'est que Fugatto permet également aux utilisateurs de faire des ajustements subtils aux instructions, comme contrôler l'épaisseur de l'accent ou l'intensité de la tristesse, permettant aux utilisateurs de créer comme un artiste.

Fugatto peut également générer des sons qui changent avec le temps, comme une tempête approchant de loin et un tonnerre augmentant en intensité avant de disparaître lentement au loin. Les utilisateurs peuvent contrôler avec précision le processus de changement de son et créer une variété d'effets sonores éclatants.

Fugatto est le fruit d'un effort de collaboration entre des chercheurs du monde entier et des membres d'équipes de pays comme l'Inde, le Brésil, la Chine, la Jordanie et la Corée du Sud. Leurs origines diverses confèrent à Fugatto de plus grandes capacités multi-accents et multilingues.

La naissance de Fugatto est l'aboutissement des années de recherche de NVIDIA dans les domaines de la modélisation vocale, du codage audio et de la compréhension audio. Il utilise 2,5 milliards de paramètres et est formé sur un cluster de systèmes NVIDIA DGX équipés de 32 GPU NVIDIA H100Tensor Core.

L'émergence de Fugatto marque une nouvelle ère dans la technologie de traitement audio. Il apportera des possibilités illimitées à divers domaines tels que la musique, les films, les jeux, l'éducation, etc. Attendons-nous avec impatience pour créer d'autres festins auditifs étonnants !

Blog officiel : https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

L'émergence de Fugatto annonce l'énorme potentiel de l'intelligence artificielle dans le domaine audio. Ses fonctions puissantes et ses méthodes de fonctionnement pratiques apporteront sans aucun doute une innovation sans précédent à tous les horizons. Attendons de voir comment Fugatto continuera à façonner notre monde auditif à l'avenir !