清华大学研究团队开发出名为SonicSim的移动音源仿真平台,旨在解决语音处理领域移动声源场景下数据匮乏的问题。该平台基于Habitat-sim构建,能够高度还原真实声学环境,为语音分离和增强模型的训练和评估提供高质量数据。现有数据集大多基于静态声源,难以满足实际需求,而真实录制数据集规模有限且成本高昂,合成数据集则缺乏真实性。SonicSim平台有效解决了这些难题,并配套构建了大型多场景移动音源数据集SonicSet。
这一平台能够模拟各种复杂的声学环境,包括障碍物遮挡、房间几何形状以及不同材料对声音的影响,并支持用户自定义场景参数。SonicSet数据集利用LibriSpeech、Freesound Dataset50k和Free Music Archive的数据,以及来自Matterport3D数据集的真实场景,包含丰富的语音、环境噪声和音乐噪声数据。其构建过程高度自动化,确保数据的真实性和多样性。实验结果表明,在SonicSet数据集上训练的模型在真实数据集上表现更优异,验证了SonicSim平台的有效性。SonicSim平台和SonicSet数据集的发布为语音处理领域带来了新的突破,未来将进一步推动语音处理技术在复杂环境中的应用,但其真实性仍受限于3D场景建模细节。论文地址:https://arxiv.org/pdf/2410.01481
SonicSim平台的出现,为语音处理领域的数据获取提供了新的思路,同时也突显了仿真技术在解决实际问题中的重要作用。未来,随着技术的不断发展,相信类似的仿真平台将会在更多领域发挥作用,推动人工智能技术的进步。