Этот репозиторий предоставляет инструмент для загрузки аудиоклипов со строгими метками из AudioSet, крупномасштабного набора данных аннотированных аудиособытий. Этот инструмент можно использовать для создания пользовательских наборов аудиоданных со строгими метками для задач машинного обучения.
Эффективно загружайте аудиофайлы из AudioSet на основе определенных меток.
Поддерживает несколько параллельных загрузок для ускорения процесса.
Гибкость выбора количества аудиофайлов для загрузки на каждую этикетку.
Удобная система логирования для отслеживания процесса загрузки.
Настроить процесс загрузки можно с помощью файла config.yaml
.
python3
ffmpeg
YouTube-DL
Клонируйте этот репозиторий:
git клон https://github.com/your-username/audioset-downloader.git
Установите зависимости:
pip install -r требования.txt
Запустите скрипт input_label.py
, чтобы сгенерировать словарь меток:
python input_label.py
Откройте файл config.yaml и вставьте словарь меток, созданный на предыдущем шаге. Измените другие поля в файле по своему усмотрению.
Запустите сценарий main.py для загрузки аудиоклипов: загружает аудиофайлы в папку output/dataset
в текущем каталоге.
основной файл Python
По умолчанию использует файлы CSV, найденные в core/
. Выполните main.py
в своем собственном каталоге.
Конфигурация инструмента указана в файле config.yaml. Доступны следующие поля:
labels
: список ярлыков для загрузки.
labels_id_dict
: Сопоставляет метки словаря с идентификаторами AudioSet.
csv_dataset
: путь к набору данных CSV.
workspace
: каталог рабочей области.
destination_dir
: каталог назначения для загруженных аудиофайлов.
fs
: Частота дискретизации.
eval_rate
: Скорость оценки.
num_threads
: количество потоков, используемых при загрузке.
Собственно, для этого и нужен загрузчик для AudioSet. Файлы CSV, предоставленные AudioSet, содержат только информацию об идентификаторах YouTube и связанных с ними метках, но не сами аудиоданные. С другой стороны, файлы TFRecord содержат векторы признаков, но не необработанные аудиосигналы, которые необходимы для некоторых задач машинного обучения.
Используя загрузчик, пользователи могут загружать аудиоданные в необработанном формате и использовать их для обучения своих моделей. Этот инструмент может помочь сэкономить время и усилия, поскольку пользователю не придется вручную искать и загружать каждый отдельный аудиоклип с YouTube. Пользователь также может использовать этот инструмент для фильтрации аудиоклипов на основе их меток, что позволяет ему создавать собственный набор данных строгих меток, адаптированный к его конкретным потребностям.
AudioSet можно скачать здесь от Google в виде набора файлов CSV. Для каждого элемента набора данных в файлах CSV указан связанный идентификатор YouTube, время начала, время окончания и метки классов. Файлы CSV используются для загрузки AudioSet в виде необработанных аудиофайлов (WAV).
Этот репозиторий предназначен только для образовательных и исследовательских целей. Пожалуйста, соблюдайте условия использования и лицензионные соглашения AudioSet при использовании этого инструмента.