NVIDIA a publié l'incroyable modèle audio d'IA Fugatto, qui ressemble à une baguette magique, donnant aux utilisateurs la possibilité de contrôler les sons via le texte. Fugatto est plus qu'un simple générateur audio. Il peut mélanger de la musique, de la parole et divers sons, et comprendre des instructions textuelles complexes pour réaliser une création et une manipulation audio sans précédent. Ce modèle offre un large éventail de perspectives d'application. De la production musicale au doublage publicitaire, de l'apprentissage des langues au développement de jeux, Fugatto peut fournir un soutien puissant, améliorant considérablement l'efficacité et la créativité. Ses puissantes capacités de traitement multilingue et multi-accent, ainsi que son contrôle précis des détails sonores, démontrent sa force technique révolutionnaire.
Vous souvenez-vous encore de la scène du film de science-fiction où le protagoniste agite une baguette magique et peut contrôler le son à volonté ? Désormais, cette capacité magique n'est plus un fantasme. Le dernier modèle d'IA de NVIDIA, Fugatto, est comme une « baguette magique sonore » ! , permettant aux utilisateurs de contrôler la musique, les sons et les voix en utilisant uniquement le texte, et de créer une variété d'effets auditifs merveilleux.
Fugatto, dont le nom complet est « Foundational Generative Audio Transformer Opus1 », est un modèle de traitement audio basé sur la technologie d'IA générative. Contrairement à d'autres modèles d'IA qui peuvent uniquement créer de la musique ou modifier la parole, Fugatto a la capacité la plus puissante de générer ou de convertir n'importe quel mélange de musique, de parole et de sons, et est capable de comprendre et d'exécuter les instructions saisies par les utilisateurs via des fichiers texte et audio.
Les puissantes fonctionnalités de Fugatto ont émerveillé les utilisateurs de tous horizons, notamment les producteurs de musique, les agences de publicité, les développeurs d'outils d'apprentissage des langues et les développeurs de jeux. Les producteurs de musique peuvent l'utiliser pour expérimenter rapidement différents styles musicaux, voix et instruments, et même ajouter des effets ou améliorer la qualité sonore des chansons existantes. Les agences de publicité peuvent l'utiliser pour ajouter différents accents et émotions au doublage de publicités et promouvoir facilement des publicités auprès de différentes régions et groupes cibles. Les développeurs d'outils d'apprentissage des langues peuvent utiliser Fugatto pour convertir le contenu des cours dans la voix souhaitée par l'utilisateur, comme celle d'un membre de la famille ou d'un ami, afin de rendre l'apprentissage plus personnalisé. Les développeurs de jeux peuvent utiliser Fugatto pour modifier les éléments sonores du jeu en temps réel en fonction de la progression du jeu, ou créer de nouveaux effets sonores de jeu basés sur des commandes textuelles et des entrées audio.
La magie de Fugatto réside dans sa capacité à comprendre et à générer des sons comme un humain. Non seulement il peut exécuter des instructions spécifiques données par l'utilisateur, mais il peut également créer de nouveaux sons jamais entendus auparavant. Par exemple, il peut faire sonner la trompette comme un chien et le saxophone avec un son de chat. Tant que l'utilisateur peut le décrire, Fugatto peut le créer.
Une autre capacité révolutionnaire de Fugatto est sa capacité à combiner des instructions apprises séparément pendant l'entraînement pour produire des effets plus complexes. Par exemple, les utilisateurs peuvent lui demander de générer une voix avec un accent français avec une émotion triste. Ce qui est encore plus étonnant, c'est que Fugatto permet également aux utilisateurs de faire des ajustements subtils aux instructions, comme contrôler l'épaisseur de l'accent ou l'intensité de la tristesse, permettant aux utilisateurs de créer comme un artiste.
Fugatto peut également générer des sons qui changent avec le temps, comme une tempête approchant de loin et un tonnerre augmentant en intensité avant de disparaître lentement au loin. Les utilisateurs peuvent contrôler avec précision le processus de changement de son et créer une variété d'effets sonores éclatants.
Fugatto est le fruit d'un effort de collaboration entre des chercheurs du monde entier et des membres d'équipes de pays comme l'Inde, le Brésil, la Chine, la Jordanie et la Corée du Sud. Leurs origines diverses confèrent à Fugatto de plus grandes capacités multi-accents et multilingues.
La naissance de Fugatto est l'aboutissement des années de recherche de NVIDIA dans les domaines de la modélisation vocale, du codage audio et de la compréhension audio. Il utilise 2,5 milliards de paramètres et est formé sur un cluster de systèmes NVIDIA DGX équipés de 32 GPU NVIDIA H100Tensor Core.
L'émergence de Fugatto marque une nouvelle ère dans la technologie de traitement audio. Il apportera des possibilités illimitées à divers domaines tels que la musique, les films, les jeux, l'éducation, etc. Attendons-nous avec impatience pour créer d'autres festins auditifs étonnants !
Blog officiel : https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
L’émergence de Fugatto n’est pas seulement une avancée technologique, mais aussi une extension infinie de la créativité. Il fournit aux artistes et aux développeurs des outils créatifs sans précédent et annonce les possibilités infinies de la future technologie audio. Attendons de voir comment Fugatto va changer notre monde auditif.