NVIDIA veröffentlicht „Sound-Zauberstab“ Fugatto: Sie können Musik mit Worten spielen! - KI-Artikel

Autor：Eve Cole Aktualisierungszeit：2025-01-29 16:32:01

NVIDIA hat das erstaunliche KI-Audiomodell Fugatto herausgebracht, das wie ein Zauberstab ist und Benutzern die Möglichkeit gibt, Sounds durch Text zu steuern. Fugatto ist mehr als nur ein einfacher Audiogenerator. Es kann Musik, Sprache und verschiedene Geräusche mischen und komplexe Textanweisungen verstehen, um eine beispiellose Audioerstellung und -manipulation zu ermöglichen. Dieses Modell bietet vielfältige Anwendungsmöglichkeiten: Von der Musikproduktion bis zur Werbesynchronisierung, vom Sprachenlernen bis zur Spieleentwicklung kann Fugatto leistungsstarke Unterstützung bieten und die Effizienz und Kreativität erheblich verbessern. Seine leistungsstarken Mehrsprachen- und Multi-Akzent-Verarbeitungsfunktionen sowie die präzise Steuerung von Klangdetails beweisen seine bahnbrechende technische Stärke.

Erinnern Sie sich noch an die Szene im Science-Fiction-Film, in der der Protagonist einen Zauberstab schwenkt und den Ton nach Belieben steuern kann? Nun ist diese magische Fähigkeit keine Fantasie mehr. NVIDIAs neuestes KI-Modell Fugatto ist wie ein „Sound-Zauberstab“! Damit können Benutzer Musik, Geräusche und Stimmen allein über Text steuern und eine Vielzahl wunderbarer Höreffekte erzeugen.

Fugatto, dessen vollständiger Name „Foundational Generative Audio Transformer Opus1“ lautet, ist ein Audioverarbeitungsmodell, das auf generativer KI-Technologie basiert. Im Gegensatz zu anderen KI-Modellen, die nur Musik erstellen oder Sprache modifizieren können, verfügt Fugatto über die leistungsfähigere Fähigkeit, beliebige Mischungen aus Musik, Sprache und Klängen zu erzeugen oder umzuwandeln, und ist in der Lage, von Benutzern über Text- und Audiodateien eingegebene Anweisungen zu verstehen und auszuführen.

Die leistungsstarken Funktionen von Fugatto haben Benutzer aus allen Lebensbereichen begeistert, darunter Musikproduzenten, Werbeagenturen, Entwickler von Sprachlerntools und Spieleentwickler. Musikproduzenten können damit schnell mit verschiedenen Musikstilen, Gesang und Instrumenten experimentieren und sogar Effekte hinzufügen oder die Klangqualität bestehender Songs verbessern. Werbeunternehmen können damit unterschiedliche Akzente und Emotionen in die Synchronisation von Werbespots einbringen und so ganz einfach Werbung in verschiedenen Regionen und Zielgruppen bewerben. Entwickler von Sprachlerntools können mit Fugatto Kursinhalte in jede vom Benutzer gewünschte Stimme umwandeln, beispielsweise die eines Familienmitglieds oder Freundes, um das Lernen personalisierter zu gestalten. Spieleentwickler können Fugatto verwenden, um Soundmaterialien im Spiel basierend auf dem Spielfortschritt in Echtzeit zu ändern oder neue Spielsoundeffekte basierend auf Textbefehlen und Audioeingaben zu erstellen.

Die Magie von Fugatto liegt in seiner Fähigkeit, Geräusche genau wie ein Mensch zu verstehen und zu erzeugen. Es kann nicht nur spezifische Anweisungen des Benutzers ausführen, sondern auch neue Geräusche erzeugen, die noch nie zuvor gehört wurden. Beispielsweise kann die Trompete einen Hundeklang erzeugen und das Saxophon einen Katzenklang. Solange der Benutzer ihn beschreiben kann, kann Fugatto ihn erzeugen.

音频声波

Eine weitere bahnbrechende Fähigkeit von Fugatto ist die Fähigkeit, während des Trainings separat erlernte Anweisungen zu kombinieren, um komplexere Effekte zu erzielen. Benutzer können ihn beispielsweise bitten, eine Stimme mit französischem Akzent und einem traurigen Gefühl zu erzeugen. Was noch erstaunlicher ist, ist, dass Fugatto den Benutzern auch ermöglicht, subtile Anpassungen an den Anweisungen vorzunehmen, wie z. B. die Stärke des Akzents oder die Intensität der Traurigkeit zu steuern, sodass Benutzer wie ein Künstler kreieren können.

Fugatto kann auch Geräusche erzeugen, die sich im Laufe der Zeit ändern, wie zum Beispiel ein Sturm, der sich aus der Ferne nähert, und Donner, der an Intensität zunimmt, bevor er langsam in der Ferne verschwindet. Benutzer können den Klangveränderungsprozess präzise steuern und eine Vielzahl lebendiger Klangeffekte erzeugen.

Fugatto ist eine Gemeinschaftsinitiative von Forschern aus der ganzen Welt mit Teammitgliedern aus Ländern wie Indien, Brasilien, China, Jordanien und Südkorea. Aufgrund ihrer unterschiedlichen Hintergründe verfügt Fugatto über größere Fähigkeiten in Bezug auf mehrere Akzente und mehrere Sprachen.

Die Geburt von Fugatto ist der Höhepunkt der jahrelangen Forschung von NVIDIA in den Bereichen Sprachmodellierung, Audiokodierung und Audioverständnis. Es verwendet 2,5 Milliarden Parameter und wird auf einem Cluster von NVIDIA DGX-Systemen trainiert, die mit 32 NVIDIA H100Tensor Core-GPUs ausgestattet sind.

Die Entstehung von Fugatto markiert eine neue Ära in der Audioverarbeitungstechnologie. Es wird unbegrenzte Möglichkeiten für verschiedene Bereiche wie Musik, Filme, Spiele, Bildung usw. bieten. Wir können uns darauf freuen, weitere erstaunliche Hörschmaus zu schaffen!

Offizieller Blog: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Die Entstehung von Fugatto ist nicht nur ein Fortschritt in der Technologie, sondern auch eine unendliche Erweiterung der Kreativität. Es bietet Künstlern und Entwicklern beispiellose kreative Werkzeuge und kündigt die endlosen Möglichkeiten der zukünftigen Audiotechnologie an. Warten wir ab, wie Fugatto unsere Hörwelt verändern wird.