Dieses Repository bietet ein Tool zum Herunterladen von Audioclips mit starkem Label von AudioSet, einem umfangreichen Datensatz kommentierter Audioereignisse. Mit dem Tool können benutzerdefinierte Strong-Label-Audiodatensätze für maschinelle Lernaufgaben erstellt werden.
Laden Sie Audiodateien basierend auf bestimmten Labels effizient von AudioSet herunter.
Unterstützt mehrere parallele Downloads, um den Prozess zu beschleunigen.
Sie können die Anzahl der herunterzuladenden Audiodateien pro Label flexibel wählen.
Praktisches Protokollierungssystem, um den Download-Vorgang zu verfolgen.
Die Konfiguration des Downloadvorgangs kann über eine config.yaml
Datei erfolgen.
Python3
ffmpeg
youtube-dl
Klonen Sie dieses Repository:
Git-Klon https://github.com/your-username/audioset-downloader.git
Abhängigkeiten installieren:
pip install -r Anforderungen.txt
Führen Sie das Skript input_label.py
aus, um das Label-Wörterbuch zu generieren:
Python input_label.py
Öffnen Sie die Datei config.yaml und fügen Sie das im vorherigen Schritt generierte Label-Wörterbuch ein. Ändern Sie die anderen Felder in der Datei nach Bedarf.
Führen Sie das Skript „main.py“ aus, um Audioclips herunterzuladen: Lädt Audiodateien in einen Ordner output/dataset
im aktuellen Verzeichnis herunter.
Python main.py
Verwendet standardmäßig CSV-Dateien aus core/
. Führen Sie main.py
in einem eigenen Verzeichnis aus.
Die Konfiguration des Tools ist in der Datei config.yaml angegeben. Folgende Felder stehen zur Verfügung:
labels
: Liste der herunterzuladenden Etiketten.
labels_id_dict
: Wörterbuchzuordnung von Labels zu AudioSet-IDs.
csv_dataset
: Pfad zum CSV-Datensatz.
workspace
: Arbeitsbereichsverzeichnis.
destination_dir
: Zielverzeichnis für die heruntergeladenen Audiodateien.
fs
: Abtastfrequenz.
eval_rate
: Bewertungsrate.
num_threads
: Anzahl der Threads, die beim Herunterladen verwendet werden sollen.
Genau deshalb wird ein Downloader für AudioSet benötigt. Die von AudioSet bereitgestellten CSV-Dateien enthalten lediglich die Informationen zu den YouTube-IDs und den zugehörigen Labels, nicht jedoch die eigentlichen Audiodaten. Andererseits enthalten die TFRecord-Dateien die Feature-Vektoren, jedoch nicht die Roh-Audiosignale, die für einige maschinelle Lernaufgaben erforderlich sind.
Mithilfe eines Downloaders können Benutzer die Audiodaten im Rohformat herunterladen und zum Trainieren ihrer Modelle verwenden. Dieses Tool kann helfen, Zeit und Aufwand zu sparen, da der Benutzer nicht jeden einzelnen Audioclip manuell von YouTube suchen und herunterladen muss. Der Benutzer kann das Tool auch verwenden, um die Audioclips anhand ihrer Labels zu filtern und so einen benutzerdefinierten Datensatz mit starken Labels zu erstellen, der auf seine spezifischen Bedürfnisse zugeschnitten ist.
AudioSet kann hier von Google als Satz CSV-Dateien heruntergeladen werden. Für jedes Element im Datensatz werden in den CSV-Dateien eine zugehörige YouTube-ID, Startzeit, Endzeit und Klassenbezeichnungen aufgeführt. Die CSV-Dateien werden verwendet, um AudioSet als Roh-Audiodateien (WAV) herunterzuladen.
Dieses Repository dient ausschließlich Bildungs- und Forschungszwecken. Bitte beachten Sie bei der Nutzung dieses Tools die Nutzungsbedingungen und Lizenzvereinbarungen von AudioSet.