Adobe Research와 Northwestern University는 혁신적인 AI 시스템인 Sketch2Sound를 만들기 위해 힘을 합쳤습니다. 이 시스템은 단순한 음성 모방 및 텍스트 설명을 전문가 수준의 음향 효과로 변환하여 사운드 디자인 산업에 전례 없는 효율성 향상을 가져올 수 있습니다. 음성의 크기, 음색, 음높이를 분석하고 이를 텍스트 설명과 결합하여 사용자가 원하는 음향 효과를 생성합니다. 예를 들어, 단순한 "숲 분위기"와 새 울음소리의 모방을 결합하면 시스템이 추가 지시 없이 자동으로 현실적인 새 울음소리를 생성할 수 있습니다. Sketch2Sound는 음악 제작도 지원합니다. 사용자는 리듬을 흥얼거리고 악기 이름만 입력하면 시스템이 자동으로 피치와 리듬을 일치시키고 해당 드럼 패턴을 생성합니다.
시스템은 음성 입력의 세 가지 주요 요소인 음량, 음색(소리의 밝기를 결정함) 및 음조를 분석합니다. 그런 다음 시스템은 이러한 기능을 텍스트 설명과 결합하여 원하는 사운드를 생성합니다.
비디오: García 외, Adobe Research
Sketch2Sound의 흥미로운 점은 맥락을 이해하는 능력입니다. 예를 들어, 누군가가 "숲 분위기"를 입력하고 짧은 소리를 내면 시스템은 특정 지침 없이도 해당 소리가 새 소리여야 함을 자동으로 인식합니다.
동일한 지능이 음악에도 적용됩니다. 드럼 패턴을 생성할 때 사용자는 "베이스 드럼, 스네어 드럼"을 입력한 후 베이스와 트레블을 사용하여 리듬을 흥얼거릴 수 있습니다. 시스템은 자동으로 베이스 드럼을 저음역에 배치하고 스네어 드럼을 고음역에 배치합니다.
전문가에게 세분화된 제어 제공연구팀은 사용자가 생성되는 소리의 정밀도를 조정하고 제어할 수 있는 특수 필터링 기술을 내장했습니다. 사운드 디자이너는 필요에 따라 정확하고 세부적인 제어 또는 보다 편안하고 대략적인 접근 방식을 선택할 수 있습니다.
이러한 유연성 덕분에 Sketch2Sound는 Foley 아티스트(영화 및 TV 프로그램의 음향 효과를 만드는 전문가)에게 특히 유용합니다. 소리를 내기 위해 물리적인 물체를 조작하는 대신 음성 및 텍스트 설명을 통해 더 빠르게 효과를 만들 수 있습니다.
연구원들은 입력 녹음의 공간 오디오 특성이 때때로 바람직하지 않은 방식으로 결과 사운드에 영향을 미칠 수 있다는 점에 주목하지만, 이 문제를 해결하기 위해 노력하고 있습니다. Adobe는 Sketch2Sound가 상용 제품이 될 시기나 출시 여부를 발표하지 않았습니다.
Sketch2Sound의 출현은 의심할 여지없이 사운드 디자인의 효율성과 편의성을 크게 향상시키고 영화, TV, 게임 및 기타 산업에 새로운 창의적 가능성을 가져다 줄 것입니다. 아직은 연구개발 단계이지만 잠재력을 무시할 수 없고 앞으로의 발전도 기대해 볼 만하다.