Adobe Research e Northwestern University uniram forças para criar um sistema revolucionário de IA – Sketch2Sound. Este sistema pode transformar simples imitações de voz e descrições de texto em efeitos sonoros de nível profissional, trazendo melhorias de eficiência sem precedentes para a indústria de design de som. Ele analisa o volume, o timbre e o tom da fala e os combina com descrições de texto para gerar os efeitos sonoros desejados pelo usuário. Sua capacidade única de compreensão do contexto é ainda mais surpreendente. Por exemplo, ao combinar uma simples "atmosfera de floresta" com a imitação de cantos de pássaros, o sistema pode gerar automaticamente cantos de pássaros realistas sem instruções adicionais. Sketch2Sound também oferece suporte à criação de música. Os usuários só precisam cantarolar o ritmo e inserir o nome do instrumento, e o sistema combinará automaticamente o tom e o ritmo e gerará o padrão de bateria correspondente.
O sistema analisa três elementos-chave da entrada de fala: volume, timbre (que determina o quão brilhante é o som) e tom. O sistema então combina esses recursos com uma descrição de texto para gerar o som desejado.
Vídeo: García et al., Adobe Research
O interessante do Sketch2Sound é sua capacidade de compreender o contexto. Por exemplo, se alguém digitar “vibe de floresta” e emitir sons curtos, o sistema reconhecerá automaticamente que esses sons deveriam ser cantos de pássaros – sem a necessidade de instruções específicas.
A mesma inteligência se aplica à música. Ao criar um padrão de bateria, os usuários podem inserir "bumbo, caixa" e então cantarolar o ritmo usando graves e agudos. O sistema coloca automaticamente o bumbo nos graves e a caixa nos agudos.
Fornece aos profissionais controle granularA equipe de pesquisa desenvolveu uma tecnologia de filtragem especial que permite aos usuários ajustar e controlar a precisão dos sons gerados. Os designers de som podem escolher um controle preciso e detalhado ou uma abordagem mais relaxada e aproximada, dependendo de suas necessidades.
Essa flexibilidade torna o Sketch2Sound especialmente valioso para artistas de Foley (profissionais que criam efeitos sonoros para filmes e programas de TV). Em vez de manipular objetos físicos para produzir sons, eles podem criar efeitos mais rapidamente por meio de fala e descrições de texto.
Os pesquisadores observam que as características espaciais do áudio da gravação de entrada podem, às vezes, afetar o som resultante de maneiras indesejáveis, mas estão trabalhando para resolver esse problema. A Adobe não anunciou quando ou se Sketch2Sound se tornará um produto comercial.
O surgimento do Sketch2Sound irá, sem dúvida, melhorar muito a eficiência e a conveniência do design de som e trazer novas possibilidades criativas para o cinema, a televisão, os jogos e outras indústrias. Embora ainda esteja em fase de investigação e desenvolvimento, o seu potencial não pode ser ignorado e vale a pena esperar pelo seu desenvolvimento futuro.