Adobe Research 和西北大学携手打造了一款革命性的 AI 系统——Sketch2Sound。这款系统能够将简单的语音模仿和文字描述转化为专业级的音效,为声音设计行业带来了前所未有的效率提升。它分析语音的响度、音色和音调,并结合文本描述,生成用户所需的声音效果。其独特的上下文理解能力更是令人惊叹,例如,简单的“森林氛围”配合鸟叫声的模仿,系统便能自动生成逼真的鸟鸣,无需额外指令。Sketch2Sound 还支持音乐创作,用户只需哼唱节奏并输入乐器名称,系统就能自动匹配音高和节奏,生成相应的鼓点模式。
该系统会分析语音输入的三个关键元素:响度、音色(决定声音的明亮程度)和音调。然后,系统会将这些特征与文本描述相结合,生成所需的声音。
视频:García 等人,Adobe Research
Sketch2Sound 的有趣之处在于它能够理解上下文。例如,如果有人输入“森林氛围”并发出短促的声音,系统会自动识别出这些声音应该是鸟叫声 - 而无需特定指令。
同样的智能也适用于音乐。在创建鼓点模式时,用户可以输入“低音鼓、小军鼓”,然后使用低音和高音哼唱节奏。系统会自动将低音鼓放在低音上,将小军鼓放在高音上。
为专业人士提供精细控制研究团队内置了特殊的过滤技术,让用户可以调整控制生成声音的精确度。声音设计师可以根据自己的需求选择精确、细致的控制或更轻松、近似的方法。
这种灵活性使得 Sketch2Sound 对于拟音师(为电影和电视节目制作音效的专业人士)来说特别有价值。他们无需操纵物理对象来发出声音,而是可以通过语音和文本描述更快地创建效果。
研究人员指出,输入录音的空间音频特性有时会以不想要的方式影响生成的声音,但他们正在努力解决这个问题。Adobe 尚未宣布 Sketch2Sound 何时或是否会成为商业产品。
Sketch2Sound 的出现,无疑将极大提高声音设计的效率和便捷性,为影视、游戏等行业带来新的创作可能性。虽然目前还处于研发阶段,但其潜力已不容忽视,未来发展值得期待。