Tsinghua University의 연구팀은 Sonicsim이라는 모바일 사운드 소스 시뮬레이션 플랫폼을 개발하여 음성 처리 분야의 모바일 사운드 소스 시나리오에서 데이터 부족 문제를 해결하기위한 것입니다. 이 플랫폼은 서식지 SIM을 기반으로하며 실제 음향 환경을 강력히 복원하고 언어 분리 및 향상된 모델의 교육 및 평가에 대한 고품질 데이터를 제공 할 수 있습니다. 대부분의 기존 데이터 세트는 정적 사운드 소스를 기반으로하며 실제 요구 사항을 충족하기가 어렵지만 실제 데이터 세트의 규모는 제한적이며 합성 데이터 세트는 진정성이 부족합니다. SONICSIM 플랫폼은 이러한 문제를 효과적으로 해결하고 대규모 멀티 스케일 리오 모바일 사운드 소스 데이터 세트 Sonicset을 구축합니다.
이 플랫폼은 장애물 폐색, 실내 형상 및 사운드에 대한 다양한 재료의 영향을 포함한 다양한 복잡한 음향 환경을 시뮬레이션 할 수 있으며 사용자 정의 장면 매개 변수를 지원합니다. SONICSET DATASET은 LibrisPeech, Freesound DataSet50K 및 무료 음악 아카이브의 데이터와 MatterPort3D 데이터 세트의 실제 장면을 사용하며 풍부한 음성, 주변 소음 및 음악 노이즈 데이터를 포함합니다. 건설 프로세스는 고도로 자동화되어 데이터의 진위와 다양성을 보장합니다. 실험 결과에 따르면 SONICSET 데이터 세트에서 훈련 된 모델은 실제 데이터 세트에서 더 잘 수행되어 SONICSIM 플랫폼의 효과를 확인합니다. Sonicsim 플랫폼과 Sonicset 데이터 세트의 출시는 음성 처리 분야에 새로운 혁신을 가져 왔으며 향후 복잡한 환경에서 음성 처리 기술의 적용을 더욱 촉진 할 것이지만, 진위는 여전히 3D 장면 모델링의 세부 사항에 의해 제한되어 있습니다. . 종이 주소 : https://arxiv.org/pdf/2410.01481
Sonicsim 플랫폼의 출현은 언어 처리 분야에서 데이터 수집에 대한 새로운 아이디어를 제공하며 실제 문제를 해결하는 데 시뮬레이션 기술의 중요한 역할을 강조합니다. 앞으로 기술의 지속적인 개발로 인해 유사한 시뮬레이션 플랫폼이 더 많은 분야에서 역할을 수행하고 인공 지능 기술의 진행을 촉진 할 것이라고 생각합니다.