該儲存庫提供了一個從 AudioSet(帶註釋的音訊事件的大型資料集)下載強標籤音訊剪輯的工具。此工具可用於為機器學習任務建立自訂強標籤音訊資料集。
根據特定標籤從AudioSet高效下載音訊檔案。
支援多個並行下載以加快進程。
靈活選擇每個標籤要下載的音訊檔案數量。
方便的日誌系統可以追蹤下載過程。
下載過程的設定可以透過config.yaml
檔案完成。
蟒蛇3
ffmpeg
youtube-dl
克隆此存儲庫:
git 克隆 https://github.com/your-username/audioset-downloader.git
安裝依賴項:
pip install -r 要求.txt
執行input_label.py
腳本產生標籤字典:
python 輸入標籤.py
開啟 config.yaml 檔案並貼上一步中產生的標籤字典。根據需要修改文件中的其他欄位。
執行 main.py 腳本下載音訊剪輯:將音訊檔案下載到目前目錄中的資料夾output/dataset
。
蟒蛇主.py
預設使用core/
中的 CSV 檔案。在自己的目錄中執行main.py
該工具的配置在 config.yaml 檔案中指定。以下欄位可用:
labels
:要下載的標籤清單。
labels_id_dict
:將標籤對應到 AudioSet ID 的字典。
csv_dataset
:CSV 資料集的路徑。
workspace
:工作空間目錄。
destination_dir
:下載的音訊檔案的目標目錄。
fs
:取樣頻率。
eval_rate
:評估率。
num_threads
:下載時使用的執行緒數。
確切地說,這就是為什麼需要 AudioSet 下載器的原因。 AudioSet 提供的 CSV 檔案僅包含有關 YouTube-ID 和關聯標籤的信息,而不包含實際的音訊資料。另一方面,TFRecord 檔案包含特徵向量,但不包含某些機器學習任務所需的原始音訊訊號。
透過使用下載器,使用者可以下載原始格式的音訊資料並用它來訓練模型。該工具可以幫助節省時間和精力,因為用戶不必從 YouTube 手動搜尋和下載每個單獨的音訊剪輯。使用者還可以使用該工具根據標籤過濾音訊剪輯,從而建立適合其特定需求的自訂強標籤資料集。
AudioSet 可以從 Google 此處下載為一組 CSV 檔案。對於資料集中的每個元素,CSV 檔案列出了關聯的 YouTube ID、開始時間、結束時間和類別標籤。 CSV 檔案用於將 AudioSet 下載為原始音訊檔案 (WAV)。
此存儲庫僅用於教育和研究目的。使用本工具時請遵守AudioSet的使用條款和授權協議。