Adobe Research et la Northwestern University ont uni leurs forces pour créer un système d'IA révolutionnaire : Sketch2Sound. Ce système peut transformer de simples imitations vocales et descriptions textuelles en effets sonores de qualité professionnelle, apportant ainsi des améliorations d'efficacité sans précédent à l'industrie de la conception sonore. Il analyse le volume, le timbre et la hauteur de la parole et les combine avec des descriptions textuelles pour générer les effets sonores souhaités par l'utilisateur. Sa capacité unique de compréhension du contexte est encore plus étonnante. Par exemple, en combinant une simple « atmosphère forestière » avec l'imitation de cris d'oiseaux, le système peut générer automatiquement des cris d'oiseaux réalistes sans instructions supplémentaires. Sketch2Sound prend également en charge la création musicale. Les utilisateurs n'ont qu'à fredonner le rythme et à saisir le nom de l'instrument, et le système fera automatiquement correspondre la hauteur et le rythme et générera le motif de batterie correspondant.
Le système analyse trois éléments clés de la saisie vocale : le volume, le timbre (qui détermine la luminosité du son) et la hauteur. Le système combine ensuite ces fonctionnalités avec une description textuelle pour générer le son souhaité.
Vidéo : García et al., Adobe Research
La chose intéressante à propos de Sketch2Sound est sa capacité à comprendre le contexte. Par exemple, si quelqu'un tape « ambiance forestière » et émet des sons courts, le système reconnaît automatiquement que ces sons doivent être des cris d'oiseaux, sans avoir besoin d'instructions spécifiques.
La même intelligence s’applique à la musique. Lors de la création d'un motif de batterie, les utilisateurs peuvent saisir « grosse caisse, caisse claire », puis fredonner le rythme en utilisant les basses et les aigus. Le système place automatiquement la grosse caisse sur le bas de gamme et la caisse claire sur le haut de gamme.
Fournit aux professionnels un contrôle granulaireL'équipe de recherche a intégré une technologie de filtrage spéciale qui permet aux utilisateurs d'ajuster et de contrôler la précision des sons générés. Les concepteurs sonores peuvent choisir un contrôle précis et détaillé ou une approche plus détendue et approximative, en fonction de leurs besoins.
Cette flexibilité rend Sketch2Sound particulièrement utile pour les artistes Foley (professionnels qui créent des effets sonores pour les films et les émissions de télévision). Au lieu de manipuler des objets physiques pour produire des sons, ils peuvent créer des effets plus rapidement grâce à des descriptions vocales et textuelles.
Les chercheurs notent que les caractéristiques audio spatiales de l’enregistrement d’entrée peuvent parfois affecter le son résultant de manière indésirable, mais ils s’efforcent de résoudre ce problème. Adobe n'a pas annoncé quand ou si Sketch2Sound deviendra un produit commercial.
L'émergence de Sketch2Sound améliorera sans aucun doute considérablement l'efficacité et la commodité de la conception sonore et apportera de nouvelles possibilités créatives aux industries du cinéma, de la télévision, du jeu et autres. Bien qu’il soit encore au stade de la recherche et du développement, son potentiel ne peut être ignoré et son développement futur mérite d’être attendu.