清華大學研究團隊開發出名為SonicSim的移動音源仿真平台,旨在解決語音處理領域移動聲源場景下數據匱乏的問題。該平台基於Habitat-sim構建,能夠高度還原真實聲學環境,為語音分離和增強模型的訓練和評估提供高質量數據。現有數據集大多基於靜態聲源,難以滿足實際需求,而真實錄製數據集規模有限且成本高昂,合成數據集則缺乏真實性。 SonicSim平台有效解決了這些難題,並配套構建了大型多場景移動音源數據集SonicSet。
這一平台能夠模擬各種複雜的聲學環境,包括障礙物遮擋、房間幾何形狀以及不同材料對聲音的影響,並支持用戶自定義場景參數。 SonicSet數據集利用LibriSpeech、Freesound Dataset50k和Free Music Archive的數據,以及來自Matterport3D數據集的真實場景,包含豐富的語音、環境噪聲和音樂噪聲數據。其構建過程高度自動化,確保數據的真實性和多樣性。實驗結果表明,在SonicSet數據集上訓練的模型在真實數據集上表現更優異,驗證了SonicSim平台的有效性。 SonicSim平台和SonicSet數據集的發佈為語音處理領域帶來了新的突破,未來將進一步推動語音處理技術在復雜環境中的應用,但其真實性仍受限於3D場景建模細節。論文地址:https://arxiv.org/pdf/2410.01481
SonicSim平台的出現,為語音處理領域的數據獲取提供了新的思路,同時也突顯了仿真技術在解決實際問題中的重要作用。未來,隨著技術的不斷發展,相信類似的仿真平台將會在更多領域發揮作用,推動人工智能技術的進步。