Adobe Research und die Northwestern University haben sich zusammengetan, um ein revolutionäres KI-System zu entwickeln – Sketch2Sound. Dieses System kann einfache Sprachimitationen und Textbeschreibungen in professionelle Soundeffekte umwandeln und so der Sounddesign-Branche beispiellose Effizienzsteigerungen bescheren. Es analysiert Lautstärke, Klangfarbe und Tonhöhe der Sprache und kombiniert sie mit Textbeschreibungen, um die vom Benutzer gewünschten Soundeffekte zu erzeugen. Noch erstaunlicher ist die einzigartige Fähigkeit, den Kontext zu verstehen. Durch die Kombination einer einfachen „Waldatmosphäre“ mit der Nachahmung von Vogelrufen kann das System automatisch realistische Vogelrufe generieren, ohne dass zusätzliche Anweisungen erforderlich sind. Sketch2Sound unterstützt auch die Musikerstellung. Benutzer müssen lediglich den Rhythmus summen und den Namen des Instruments eingeben. Das System passt dann automatisch Tonhöhe und Rhythmus an und generiert das entsprechende Schlagzeugmuster.
Das System analysiert drei Schlüsselelemente der Spracheingabe: Lautstärke, Klangfarbe (die bestimmt, wie hell der Ton ist) und Tonhöhe. Das System kombiniert diese Funktionen dann mit einer Textbeschreibung, um den gewünschten Sound zu erzeugen.
Video: García et al., Adobe Research
Das Interessante an Sketch2Sound ist seine Fähigkeit, Kontexte zu verstehen. Wenn jemand zum Beispiel „Waldstimmung“ eintippt und kurze Geräusche von sich gibt, erkennt das System automatisch, dass es sich dabei um Vogelrufe handeln muss – ohne dass dazu spezielle Anweisungen erforderlich sind.
Die gleiche Intelligenz gilt für Musik. Beim Erstellen eines Drum-Patterns können Benutzer „Bassdrum, Snare-Drum“ eingeben und dann den Rhythmus mithilfe der Bässe und Höhen summen. Das System platziert die Bassdrum automatisch am unteren Ende und die Snaredrum am oberen Ende.
Bietet Fachleuten eine detaillierte KontrolleDas Forschungsteam baute eine spezielle Filtertechnologie ein, die es Benutzern ermöglicht, die Präzision der erzeugten Geräusche anzupassen und zu steuern. Sounddesigner können je nach Bedarf zwischen einer präzisen, detaillierten Steuerung oder einem entspannteren, ungefähren Ansatz wählen.
Diese Flexibilität macht Sketch2Sound besonders wertvoll für Foley-Künstler (Profis, die Soundeffekte für Filme und Fernsehsendungen erstellen). Anstatt physische Objekte zu manipulieren, um Geräusche zu erzeugen, können sie durch Sprache und Textbeschreibungen schneller Effekte erzeugen.
Die Forscher stellen fest, dass die räumlichen Audioeigenschaften der Eingangsaufnahme den resultierenden Klang manchmal in unerwünschter Weise beeinflussen können, sie arbeiten jedoch an einer Lösung dieses Problems. Adobe hat nicht bekannt gegeben, wann und ob Sketch2Sound ein kommerzielles Produkt wird.
Das Aufkommen von Sketch2Sound wird zweifellos die Effizienz und den Komfort des Sounddesigns erheblich verbessern und der Film-, Fernseh-, Spiele- und anderen Branchen neue kreative Möglichkeiten eröffnen. Obwohl es sich noch im Forschungs- und Entwicklungsstadium befindet, kann sein Potenzial nicht ignoriert werden und es lohnt sich, auf seine zukünftige Entwicklung zu blicken.