Este repositorio proporciona una herramienta para descargar clips de audio con etiquetas potentes de AudioSet, un conjunto de datos a gran escala de eventos de audio anotados. La herramienta se puede utilizar para crear conjuntos de datos de audio de etiquetas sólidas personalizados para tareas de aprendizaje automático.
Descargue archivos de audio de manera eficiente desde AudioSet según etiquetas específicas.
Admite múltiples descargas paralelas para acelerar el proceso.
Flexibilidad para elegir la cantidad de archivos de audio a descargar por etiqueta.
Cómodo sistema de registro para realizar un seguimiento del proceso de descarga.
La configuración del proceso de descarga se puede realizar a través de un archivo config.yaml
.
python3
ffmpeg
youtube-dl
Clona este repositorio:
clon de git https://github.com/your-username/audioset-downloader.git
Instalar dependencias:
instalación de pip -r requisitos.txt
Ejecute el script input_label.py
para generar el diccionario de etiquetas:
Python input_label.py
Abra el archivo config.yaml y pegue el diccionario de etiquetas que se generó en el paso anterior. Modifique los demás campos del archivo como desee.
Ejecute el script main.py para descargar clips de audio: descarga archivos de audio a una carpeta output/dataset
en el directorio actual.
Python principal.py
Utiliza archivos CSV que se encuentran en core/
de forma predeterminada. Ejecute main.py
en su propio directorio.
La configuración de la herramienta se especifica en el archivo config.yaml. Los siguientes campos están disponibles:
labels
: Lista de etiquetas para descargar.
labels_id_dict
: Diccionario que asigna etiquetas a ID de AudioSet.
csv_dataset
: ruta al conjunto de datos CSV.
workspace
: directorio del espacio de trabajo.
destination_dir
: directorio de destino para los archivos de audio descargados.
fs
: Frecuencia de muestreo.
eval_rate
: Tasa de evaluación.
num_threads
: número de subprocesos que se utilizarán al descargar.
Exactamente, es por eso que se necesita un descargador de AudioSet. Los archivos CSV proporcionados por AudioSet contienen sólo la información sobre los ID de YouTube y las etiquetas asociadas, pero no los datos de audio reales. Por otro lado, los archivos TFRecord contienen los vectores de características, pero no las señales de audio sin procesar, lo cual es necesario para algunas tareas de aprendizaje automático.
Al utilizar un descargador, los usuarios pueden descargar los datos de audio en formato sin procesar y usarlos para entrenar sus modelos. Esta herramienta puede ayudar a ahorrar tiempo y esfuerzo, ya que el usuario no tiene que buscar y descargar manualmente cada clip de audio individual de YouTube. El usuario también puede utilizar la herramienta para filtrar los clips de audio según sus etiquetas, lo que le permite crear un conjunto de datos de etiquetas sólido personalizado que se adapta a sus necesidades específicas.
AudioSet se puede descargar de Google aquí como un conjunto de archivos CSV. Para cada elemento del conjunto de datos, los archivos CSV enumeran un ID de YouTube asociado, una hora de inicio, una hora de finalización y etiquetas de clase. Los archivos CSV se utilizan para descargar AudioSet como archivos de audio sin formato (WAV).
Este repositorio es sólo para fines educativos y de investigación. Respete los términos de uso y los acuerdos de licencia de AudioSet al utilizar esta herramienta.