목소리가 미래를 지배한다! 새로운 AI 모델 Sketch2Sound는 음성 모방 및 텍스트 프롬프트만 사용하여 고품질 오디오를 생성할 수 있습니다.

저자：Eve Cole 업데이트 시간：2024-12-27 19:32:01

단 몇 번의 윙윙거리는 소리나 비트만으로도 고품질의 음악이나 음향 효과를 생성할 수 있다고 상상해 보십시오. 이것은 더 이상 먼 꿈이 아닙니다. 획기적인 AI 연구의 결과인 Sketch2Sound는 소리 모방과 텍스트 프롬프트를 결합하여 고품질 오디오 생성을 달성합니다. 소리 모방에서 추출된 음량, 밝기, 피치의 세 가지 핵심 제어 신호를 교묘하게 활용하고 이를 텍스트에서 오디오로의 잠재적 확산 모델에 통합함으로써 AI가 특정 요구 사항을 충족하는 소리를 생성하도록 유도하여 분야에 큰 이점을 제공합니다. 소리의 창조, 혁명적인 변화.

Sketch2Sound의 핵심 기술은 모든 사운드 모방(예: 음성 모방 또는 참조 사운드)에서 음량, 밝기(스펙트럼 중심) 및 피치의 세 가지 주요 시간 변화 제어 신호를 추출하는 기능입니다. 이러한 제어 신호가 인코딩되면 텍스트-사운드 생성에 사용되는 기본 확산 모델에 추가되어 AI가 특정 요구 사항을 충족하는 사운드를 생성하도록 안내합니다.

이 기술의 가장 인상적인 점은 가볍고 효율성입니다. Sketch2Sound는 기존 텍스트-오디오 잠재 확산 모델을 기반으로 구축되어 40,000단계의 미세 조정만 필요하고 각 제어 신호에 대해 하나의 선형 레이어만 필요하므로 다른 방법(예: ControlNet)보다 더 간결하고 효율적입니다. 모델이 "스케치"와 같은 소리 모방을 합성할 수 있도록 하기 위해 연구원들은 훈련 중에 제어 신호에 확률론적 중앙값 필터를 적용하여 유연한 시간적 특성을 가진 제어 신호에 적응할 수 있도록 했습니다. 실험 결과에 따르면 Sketch2Sound는 입력 제어 신호에 맞는 사운드를 합성할 수 있을 뿐만 아니라 텍스트 프롬프트 준수를 유지하고 일반 텍스트 기준선에 필적하는 오디오 품질을 달성할 수 있습니다.

Sketch2Sound는 사운드 아티스트에게 새로운 창작 방법을 제공합니다. 그들은 텍스트 프롬프트의 의미론적 유연성을 보컬 제스처나 모방의 표현력 및 정확성과 결합하여 전례 없는 사운드 구성을 만들 수 있습니다. 이는 개체를 조작하여 음향 효과를 생성하는 전통적인 Foley 아티스트와 유사하며, Sketch2Sound는 소리 모방을 통해 사운드 생성을 안내하여 사운드 생성에 "인간화된" 터치를 가져오고 사운드 작품의 예술적 가치를 향상시킵니다.

Sketch2Sound는 기존의 텍스트-오디오 상호 작용 방법에 비해 한계를 극복할 수 있습니다. 과거에는 사운드 디자이너가 생성된 사운드의 시간적 특성을 조정하여 시각적 효과와 동기화하는 데 많은 시간을 소비해야 했습니다. Sketch2Sound는 사운드 모방을 통해 자연스럽게 이러한 동기화를 달성할 수 있으며 인간 음성 모방, 모든 유형의 사운드에 국한되지 않습니다. 모방은 이 생성 모델을 구동하는 데 사용될 수 있습니다.

또한 연구원들은 훈련 중에 서로 다른 창 크기의 중앙값 필터를 적용하여 제어 신호의 시간적 세부 사항을 조정하는 기술을 개발했습니다. 이를 통해 사운드 아티스트는 생성 모델이 제어 신호의 타이밍 정확도를 얼마나 잘 준수하는지 제어할 수 있으므로 완벽하게 모방하기 어려운 사운드의 품질이 향상됩니다. 실제 응용 분야에서 사용자는 중앙 필터의 크기를 조정하여 사운드 모방을 엄격하게 준수하는 것과 오디오 품질을 보장하는 것 사이의 균형을 찾을 수 있습니다.

Sketch2Sound의 작동 원리는 먼저 입력 오디오 신호에서 음량, 스펙트럼 중심 및 피치의 세 가지 제어 신호를 추출하는 것입니다. 그런 다음 이러한 제어 신호는 텍스트-소리 모델의 잠재 신호와 정렬되고 잠재 확산 모델은 간단한 선형 투영 레이어를 통해 조정되어 궁극적으로 원하는 사운드를 생성합니다. 실험 결과에 따르면 신호의 시변 제어를 통해 모델을 조정하면 이 신호에 대한 적합성을 크게 향상시키면서 오디오 품질 및 텍스트 적합성에 미치는 영향은 최소화할 수 있습니다.

특히 연구원들은 제어 신호가 생성된 신호의 의미를 조작할 수 있다는 사실도 발견했습니다. 예를 들어 "forest ambience"라는 텍스트 프롬프트를 사용할 때 무작위 음량 버스트가 소리 모방에 추가되면 모델은 추가 프롬프트 "birds" 없이 이러한 음량 버스트에서 새 울음소리를 합성할 수 있습니다. 이는 모델이 상관 관계를 학습했음을 보여줍니다. 큰 소리의 폭발과 새의 존재 사이.

물론 Sketch2Sound에는 질량 제어 중심이 입력 사운드에 의해 모델링된 공간 톤을 생성된 오디오에 통합할 수 있다는 사실과 같은 몇 가지 제한 사항이 있습니다. 입력 오디오에 사운드 이벤트가 없습니다.

전체적으로 Sketch2Sound는 텍스트 프롬프트와 시변 컨트롤(크기, 밝기, 피치)을 통해 사운드를 생성할 수 있는 강력한 생성 사운드 모델입니다. 사운드 모방 및 "스케치" 제어 곡선을 통해 사운드를 생성할 수 있으며, 사운드 아티스트에게 유연한 타이밍으로 사운드를 생성할 수 있는 제어 가능하고 표현력이 풍부한 도구를 제공합니다. 향후 음악 창작 및 게임 사운드 디자인 분야의 응용 가능성을 제시합니다.

논문 주소: https://arxiv.org/pdf/2412.08550

Sketch2Sound의 등장은 사운드 제작 분야의 새로운 시대를 예고하며 아티스트에게 전례 없는 창작의 자유와 가능성을 제공하고 음악, 게임, 영화 및 기타 분야에 무한한 상상력의 공간을 제공합니다. 가까운 미래에는 이 기술이 더욱 널리 활용되어 우리에게 더욱 다채로운 사운드 세계를 선사할 것이라고 믿습니다.