Produziert von NVIDIA! KI-Audiomodell Fugatto: Geben Sie Text und Audio ein, um Musik und Soundeffekte zu erzeugen – KI-Artikel

Autor：Eve Cole Aktualisierungszeit：2025-01-25 11:00:03

NVIDIA hat ein revolutionäres KI-Modell zur Audioerzeugung und -verarbeitung namens Fugatto auf den Markt gebracht, das über 2,5 Milliarden Parameter verfügt und beispiellose Flexibilität und Kreativität in den Bereich der Musik- und Klangerzeugung bringen soll. Fugatto kombiniert Textansagen und fortschrittliche Audiosynthesetechnologie, unterstützt die Text- und Audioeingabe, durchbricht die Einschränkungen herkömmlicher Audioerzeugungsmodelle, ermöglicht Benutzern das Erstellen und Ändern in Echtzeit und die Generierung einer Vielzahl neuartiger Soundeffekte. Seine innovative „Composable Audio Representation Transformation“ (ComposableART)-Technologie ermöglicht Benutzern eine beispiellose Kontrolle und präzise Kontrolle über den Klang.

Im Bereich der Musik- und Klangerzeugung stand die Kombination von Technologie und Kreativität schon immer vor vielen Herausforderungen. Bestehende KI-Modelle eignen sich oft nur für bestimmte Aufgaben und sind nicht umfassend anpassbar, was die Hilfsrolle der KI bei der Musikproduktion einschränkt. Damit KI die Musik- und Audioproduktion besser unterstützen kann, ist dringend ein universelles Modell erforderlich, das flexibel auf verschiedene kreative Bedürfnisse reagieren kann. Zu diesem Zweck hat NVIDIA Fugatto auf den Markt gebracht, ein Audioerzeugungs- und -verarbeitungsmodell mit 2,5 Milliarden Parametern.

Fugatto wurde entwickelt, um einen äußerst flexiblen Raum für Spracheingaben und kreative Experimente zu bieten, indem Textansagen mit erweiterten Audiosynthesefunktionen kombiniert werden. Es kann beispielsweise eine Klaviermelodie in einen gesungenen Gesang verwandeln oder der Trompete einen unerwarteten Klang verleihen.

Fugatto unterstützt nicht nur die Texteingabe, sondern auch die optionale Audioeingabe, wodurch die Einschränkungen herkömmlicher Audioerzeugungsmodelle aufgehoben werden und es Künstlern und Entwicklern ermöglicht wird, neue Arten von Sounds in Echtzeit zu erstellen und zu ändern und reibungslos zu generieren.

Auf der technischen Seite nutzt Fugatto einen innovativen Ansatz zur Datengenerierung, der über das traditionelle überwachte Lernen hinausgeht. Das Training basiert nicht nur auf regulären Datensätzen, sondern auch auf speziell generierten Datensätzen, wodurch eine große Vielfalt an Audio- und Konvertierungsaufgaben entsteht. Darüber hinaus verwendet Fugatto große Sprachmodelle (LLM), um die Möglichkeiten zur Befehlserstellung zu verbessern und die Beziehung zwischen Audio- und Textaufforderungen besser zu verstehen.

Eine wichtige Neuerung ist die Composable Audio Representation Transform (ComposableART), eine Technik, die zur Inferenzzeit verwendet wird, um verschiedene Anweisungen zur Audioerzeugung flexibel zu kombinieren, zu interpolieren oder zu negieren. ComposableART gibt Benutzern eine größere Kontrolle über den Audiosyntheseprozess und ermöglicht ihnen eine präzise Navigation durch die Klangpalette von Fugatto, um einzigartige Klangphänomene zu erzeugen.

Die Architektur von Fugatto basiert auf dem erweiterten Transformer-Modell und verwendet spezifische Modifikationen wie die adaptive Layer-Normalisierung, um die Konsistenz unter mehreren Eingabebedingungen aufrechtzuerhalten und komplexe Kombinationsanweisungen zu unterstützen. Vorläufige Tests zeigen, dass Fugatto bei gängigen Benchmarks gut abschneidet, insbesondere bei der Klangsynthese und -transformation, und größere Fähigkeiten als andere professionelle Modelle aufweist.

Die Einführung von Fugatto stellt einen wichtigen Fortschritt in der KI der Audioerzeugung dar, durchbricht traditionelle Einschränkungen und bietet ein leistungsstarkes und flexibles Werkzeug für die kreative Audioproduktion. Aufgrund ihrer potenziellen Anwendungen in zahlreichen Bereichen wie Musik, Spielen, Unterhaltung und Bildung wird die KI-Technologie weiterhin eine wichtige Rolle bei der Unterstützung der menschlichen Kreativität spielen.

Offizieller Blog: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Papier: https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf

Highlight:

Fugatto ist ein von NVIDIA eingeführtes Audio-KI-Modell. Es verfügt über 2,5 Milliarden Parameter, unterstützt die Text- und Audioeingabe und unterstützt die Musik- und Sounderstellung.

Mithilfe innovativer Datengenerierungsmethoden und kombinierbarer Audiodarstellungstransformationstechnologie können Benutzer Sounds flexibel erzeugen und modifizieren.

Vorläufige Tests zeigen, dass Fugatto mehrere professionelle Modelle bei der Audiosynthese und -transformation übertrifft und damit sein starkes kreatives Potenzial unter Beweis stellt.

Alles in allem bringt Fugatto mit seinen leistungsstarken Funktionen und flexiblen Features neue Möglichkeiten in die Bereiche Musikkreation und Sounddesign und deutet darauf hin, dass der Einsatz von KI in der Kreativbranche umfassender und tiefgreifender sein wird. Wir freuen uns darauf, dass Fugatto uns in Zukunft weitere Überraschungen bescheren wird.