Ce référentiel fournit un outil permettant de télécharger des clips audio avec des étiquettes fortes à partir d'AudioSet, un ensemble de données à grande échelle d'événements audio annotés. L'outil peut être utilisé pour créer des ensembles de données audio d'étiquettes fortes personnalisés pour les tâches d'apprentissage automatique.
Téléchargez efficacement des fichiers audio depuis AudioSet en fonction d'étiquettes spécifiques.
Prend en charge plusieurs téléchargements parallèles pour accélérer le processus.
Flexibilité pour choisir le nombre de fichiers audio à télécharger par étiquette.
Système de journalisation pratique pour suivre le processus de téléchargement.
La configuration du processus de téléchargement peut être effectuée via un fichier config.yaml
.
python3
ffmpeg
youtube-dl
Clonez ce dépôt :
clone git https://github.com/your-username/audioset-downloader.git
Installer les dépendances :
pip install -r exigences.txt
Exécutez le script input_label.py
pour générer le dictionnaire d'étiquettes :
python entrée_étiquette.py
Ouvrez le fichier config.yaml et collez le dictionnaire d'étiquettes généré à l'étape précédente. Modifiez les autres champs du fichier comme vous le souhaitez.
Exécutez le script main.py pour télécharger des clips audio : télécharge les fichiers audio dans un dossier output/dataset
dans le répertoire actuel.
python main.py
Utilise les fichiers CSV trouvés dans core/
par défaut. Exécutez main.py
dans son propre répertoire.
La configuration de l'outil est spécifiée dans le fichier config.yaml. Les champs suivants sont disponibles :
labels
: Liste des labels à télécharger.
labels_id_dict
: dictionnaire mappant les étiquettes aux ID AudioSet.
csv_dataset
: Chemin d'accès à l'ensemble de données CSV.
workspace
: répertoire de l'espace de travail.
destination_dir
: Répertoire de destination des fichiers audio téléchargés.
fs
: Fréquence d'échantillonnage.
eval_rate
: Taux d'évaluation.
num_threads
: Nombre de threads à utiliser lors du téléchargement.
Exactement, c'est pourquoi un téléchargeur pour AudioSet est nécessaire. Les fichiers CSV fournis par AudioSet contiennent uniquement les informations sur les ID YouTube et les étiquettes associées, mais pas les données audio réelles. D'un autre côté, les fichiers TFRecord contiennent les vecteurs de caractéristiques, mais pas les signaux audio bruts, nécessaires à certaines tâches d'apprentissage automatique.
En utilisant un téléchargeur, les utilisateurs peuvent télécharger les données audio dans un format brut et les utiliser pour entraîner leurs modèles. Cet outil peut permettre d'économiser du temps et des efforts, car l'utilisateur n'a pas besoin de rechercher et de télécharger manuellement chaque clip audio individuel depuis YouTube. L'utilisateur peut également utiliser l'outil pour filtrer les clips audio en fonction de leurs étiquettes, ce qui leur permet de créer un ensemble de données d'étiquettes fortes personnalisées, adaptées à leurs besoins spécifiques.
AudioSet peut être téléchargé depuis Google ici sous la forme d'un ensemble de fichiers CSV. Pour chaque élément de l'ensemble de données, les fichiers CSV répertorient un identifiant YouTube, une heure de début, une heure de fin et des étiquettes de classe associés. Les fichiers CSV sont utilisés pour télécharger AudioSet sous forme de fichiers audio bruts (WAV).
Ce référentiel est uniquement destiné à des fins éducatives et de recherche. Veuillez respecter les conditions d'utilisation et les accords de licence d'AudioSet lorsque vous utilisez cet outil.