このリポジトリは、注釈付きオーディオ イベントの大規模データセットである AudioSet から強力なラベルのオーディオ クリップをダウンロードするツールを提供します。このツールを使用して、機械学習タスク用のカスタムの強力なラベルの音声データセットを構築できます。
特定のラベルに基づいて AudioSet からオーディオ ファイルを効率的にダウンロードします。
プロセスを高速化するために複数の並列ダウンロードをサポートします。
ラベルごとにダウンロードするオーディオ ファイルの数を柔軟に選択できます。
ダウンロードプロセスを追跡する便利なログシステム。
ダウンロード プロセスの構成は、 config.yaml
ファイルを通じて行うことができます。
Python3
ffmpeg
youtube-dl
このリポジトリのクローンを作成します。
git clone https://github.com/your-username/audioset-downloader.git
依存関係をインストールします。
pip install -r 要件.txt
input_label.py
スクリプトを実行してラベル辞書を生成します。
Python input_label.py
config.yaml ファイルを開き、前の手順で生成したラベル辞書を貼り付けます。必要に応じて、ファイル内の他のフィールドを変更します。
main.py スクリプトを実行してオーディオ クリップをダウンロードします。オーディオ ファイルを現在のディレクトリのoutput/dataset
フォルダーにダウンロードします。
Python main.py
デフォルトではcore/
にある CSV ファイルを使用します。 main.py
独自のディレクトリで実行します。
ツールの構成は config.yaml ファイルで指定されます。次のフィールドが使用可能です。
labels
: ダウンロードするラベルのリスト。
labels_id_dict
: ラベルを AudioSet ID にマッピングする辞書。
csv_dataset
: CSV データセットへのパス。
workspace
: ワークスペースディレクトリ。
destination_dir
: ダウンロードされたオーディオ ファイルの宛先ディレクトリ。
fs
: サンプリング周波数。
eval_rate
: 評価率。
num_threads
: ダウンロード時に使用するスレッドの数。
まさに、これが AudioSet のダウンローダーが必要な理由です。 AudioSet によって提供される CSV ファイルには、YouTube-ID と関連するラベルに関する情報のみが含まれており、実際のオーディオ データは含まれていません。一方、TFRecord ファイルには特徴ベクトルが含まれていますが、一部の機械学習タスクに必要な生のオーディオ信号は含まれていません。
ダウンローダーを使用すると、ユーザーは音声データを生の形式でダウンロードし、それをモデルのトレーニングに使用できます。このツールは、ユーザーが YouTube から個々のオーディオ クリップを手動で検索してダウンロードする必要がないため、時間と労力を節約するのに役立ちます。ユーザーは、このツールを使用してラベルに基づいてオーディオ クリップをフィルタリングし、特定のニーズに合わせたカスタムの強力なラベル データセットを構築することもできます。
AudioSet は、Google から CSV ファイルのセットとしてダウンロードできます。データセット内の各要素について、CSV ファイルには、関連付けられた YouTube ID、開始時刻、終了時刻、クラス ラベルがリストされます。 CSV ファイルは、AudioSet を生のオーディオ ファイル (WAV) としてダウンロードするために使用されます。
このリポジトリは教育と研究のみを目的としています。このツールを使用するときは、AudioSet の使用条件とライセンス契約を尊重してください。