该存储库提供了一个从 AudioSet(带注释的音频事件的大型数据集)下载强标签音频剪辑的工具。该工具可用于为机器学习任务构建自定义强标签音频数据集。
根据特定标签从AudioSet高效下载音频文件。
支持多个并行下载以加快进程。
灵活选择每个标签下载的音频文件数量。
方便的日志系统可以跟踪下载过程。
下载过程的配置可以通过config.yaml
文件完成。
蟒蛇3
ffmpeg
youtube-dl
克隆此存储库:
git 克隆 https://github.com/your-username/audioset-downloader.git
安装依赖项:
pip install -r 要求.txt
运行input_label.py
脚本生成标签字典:
python 输入标签.py
打开 config.yaml 文件并粘贴上一步中生成的标签字典。根据需要修改文件中的其他字段。
运行 main.py 脚本下载音频剪辑:将音频文件下载到当前目录中的文件夹output/dataset
。
蟒蛇主.py
默认使用core/
中的 CSV 文件。在自己的目录中执行main.py
该工具的配置在 config.yaml 文件中指定。以下字段可用:
labels
:要下载的标签列表。
labels_id_dict
:将标签映射到 AudioSet ID 的字典。
csv_dataset
:CSV 数据集的路径。
workspace
:工作空间目录。
destination_dir
:下载的音频文件的目标目录。
fs
:采样频率。
eval_rate
:评估率。
num_threads
:下载时使用的线程数。
确切地说,这就是为什么需要 AudioSet 下载器的原因。 AudioSet 提供的 CSV 文件仅包含有关 YouTube-ID 和关联标签的信息,而不包含实际的音频数据。另一方面,TFRecord 文件包含特征向量,但不包含某些机器学习任务所需的原始音频信号。
通过使用下载器,用户可以下载原始格式的音频数据并用它来训练模型。该工具可以帮助节省时间和精力,因为用户不必从 YouTube 手动搜索和下载每个单独的音频剪辑。用户还可以使用该工具根据标签过滤音频剪辑,从而构建适合其特定需求的自定义强标签数据集。
AudioSet 可以从 Google 此处下载为一组 CSV 文件。对于数据集中的每个元素,CSV 文件列出了关联的 YouTube ID、开始时间、结束时间和类别标签。 CSV 文件用于将 AudioSet 下载为原始音频文件 (WAV)。
该存储库仅用于教育和研究目的。使用本工具时请遵守AudioSet的使用条款和许可协议。