NVIDIA veröffentlicht „Sound-Zauberstab“ Fugatto: Sie können Musik mit Worten spielen!

Autor：Eve Cole Aktualisierungszeit：2025-01-09 09:24:01

Fugatto, das neueste von NVIDIA veröffentlichte KI-Modell, scheint magische Kräfte zu haben und revolutioniert die Audioverarbeitungstechnologie völlig. Es kann nicht nur eine Mischung aus Musik, Stimme und Ton erzeugen, sondern auch Anweisungen verstehen und ausführen, die Benutzer über Text- und Audiodateien eingeben, wodurch eine Vielzahl wunderbarer Höreffekte erzeugt werden können. Der Herausgeber von Downcodes vermittelt Ihnen ein tiefgreifendes Verständnis dieses bahnbrechenden KI-Modells und zeigt Ihnen, wie es Szenen aus Science-Fiction-Filmen in die Realität umsetzen kann.

Fugatto, dessen vollständiger Name „Foundational Generative Audio Transformer Opus1“ lautet, ist ein Audioverarbeitungsmodell, das auf generativer KI-Technologie basiert. Im Gegensatz zu anderen KI-Modellen, die nur Musik erstellen oder Sprache modifizieren können, verfügt Fugatto über die leistungsfähigere Fähigkeit, beliebige Mischungen aus Musik, Sprache und Klängen zu erzeugen oder umzuwandeln, und ist in der Lage, von Benutzern über Text- und Audiodateien eingegebene Anweisungen zu verstehen und auszuführen.

Die leistungsstarken Funktionen von Fugatto haben Benutzer aus allen Lebensbereichen begeistert, darunter Musikproduzenten, Werbeagenturen, Entwickler von Sprachlerntools und Spieleentwickler. Musikproduzenten können damit schnell mit verschiedenen Musikstilen, Gesang und Instrumenten experimentieren und sogar Effekte hinzufügen oder die Klangqualität bestehender Songs verbessern. Werbeunternehmen können damit unterschiedliche Akzente und Emotionen in die Synchronisation von Werbespots einbringen und so ganz einfach Werbung in verschiedenen Regionen und Zielgruppen bewerben. Entwickler von Sprachlerntools können mit Fugatto Kursinhalte in jede vom Benutzer gewünschte Stimme umwandeln, beispielsweise die eines Familienmitglieds oder Freundes, um das Lernen personalisierter zu gestalten. Spieleentwickler können Fugatto verwenden, um Soundmaterialien im Spiel basierend auf dem Spielfortschritt in Echtzeit zu ändern oder neue Spielsoundeffekte basierend auf Textbefehlen und Audioeingaben zu erstellen.

Die Magie von Fugatto liegt in seiner Fähigkeit, Geräusche genau wie ein Mensch zu verstehen und zu erzeugen. Es kann nicht nur spezifische Anweisungen des Benutzers ausführen, sondern auch neue Geräusche erzeugen, die noch nie zuvor gehört wurden. Beispielsweise kann die Trompete einen Hundeklang erzeugen und das Saxophon einen Katzenklang. Solange der Benutzer ihn beschreiben kann, kann Fugatto ihn erzeugen.

Hinweis zur Bildquelle: Das Bild wird von KI generiert und vom Dienstanbieter Midjourney autorisiert

Eine weitere bahnbrechende Fähigkeit von Fugatto ist die Fähigkeit, während des Trainings separat erlernte Anweisungen zu kombinieren, um komplexere Effekte zu erzielen. Benutzer können ihn beispielsweise bitten, eine Stimme mit französischem Akzent und einem traurigen Gefühl zu erzeugen. Was noch erstaunlicher ist, ist, dass Fugatto den Benutzern auch ermöglicht, subtile Anpassungen an den Anweisungen vorzunehmen, wie z. B. die Stärke des Akzents oder die Intensität der Traurigkeit zu steuern, sodass Benutzer wie ein Künstler kreieren können.

Fugatto kann auch Geräusche erzeugen, die sich im Laufe der Zeit ändern, wie zum Beispiel ein Sturm, der sich aus der Ferne nähert, und Donner, der an Intensität zunimmt, bevor er langsam in der Ferne verschwindet. Benutzer können den Klangveränderungsprozess präzise steuern und eine Vielzahl lebendiger Klangeffekte erzeugen.

Fugatto ist eine Gemeinschaftsinitiative von Forschern aus der ganzen Welt mit Teammitgliedern aus Ländern wie Indien, Brasilien, China, Jordanien und Südkorea. Aufgrund ihrer unterschiedlichen Hintergründe verfügt Fugatto über größere Fähigkeiten in Bezug auf mehrere Akzente und mehrere Sprachen.

Die Geburt von Fugatto ist der Höhepunkt der jahrelangen Forschung von NVIDIA in den Bereichen Sprachmodellierung, Audiokodierung und Audioverständnis. Es verwendet 2,5 Milliarden Parameter und wird auf einem Cluster von NVIDIA DGX-Systemen trainiert, die mit 32 NVIDIA H100Tensor Core-GPUs ausgestattet sind.

Die Entstehung von Fugatto markiert eine neue Ära in der Audioverarbeitungstechnologie. Es wird unbegrenzte Möglichkeiten für verschiedene Bereiche wie Musik, Filme, Spiele, Bildung usw. bieten. Wir können uns darauf freuen, weitere erstaunliche Hörschmaus zu schaffen!

Offizieller Blog: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Das Aufkommen von Fugatto verdeutlicht das enorme Potenzial der künstlichen Intelligenz im Audiobereich. Seine leistungsstarken Funktionen und praktischen Bedienmethoden werden zweifellos beispiellose Innovationen in alle Lebensbereiche bringen. Warten wir ab, wie Fugatto auch in Zukunft unsere Hörwelt prägen wird!