이 저장소는 주석이 달린 오디오 이벤트의 대규모 데이터 세트인 AudioSet에서 강력한 레이블 오디오 클립을 다운로드하는 도구를 제공합니다. 이 도구는 기계 학습 작업을 위한 사용자 정의 강력한 레이블 오디오 데이터 세트를 구축하는 데 사용할 수 있습니다.
특정 레이블을 기반으로 AudioSet에서 오디오 파일을 효율적으로 다운로드합니다.
프로세스 속도를 높이기 위해 여러 병렬 다운로드를 지원합니다.
라벨당 다운로드할 오디오 파일 수를 유연하게 선택할 수 있습니다.
다운로드 프로세스를 추적하는 편리한 로깅 시스템입니다.
다운로드 프로세스 구성은 config.yaml
파일을 통해 수행할 수 있습니다.
파이썬3
ffmpeg
유튜브-DL
다음 저장소를 복제하세요.
자식 클론 https://github.com/your-username/audioset-downloader.git
종속성을 설치합니다.
pip 설치 -r 요구사항.txt
input_label.py
스크립트를 실행하여 레이블 사전을 생성하십시오.
파이썬 input_label.py
config.yaml 파일을 열고 이전 단계에서 생성된 레이블 사전을 붙여넣습니다. 원하는 대로 파일의 다른 필드를 수정합니다.
main.py 스크립트를 실행하여 오디오 클립을 다운로드합니다. 오디오 파일을 현재 디렉터리의 output/dataset
폴더로 다운로드합니다.
파이썬 메인.py
기본적으로 core/
에 있는 CSV 파일을 사용합니다. 자체 디렉토리에서 main.py
실행하십시오.
도구 구성은 config.yaml 파일에 지정됩니다. 다음 필드를 사용할 수 있습니다.
labels
: 다운로드할 라벨 목록입니다.
labels_id_dict
: 라벨을 AudioSet ID에 매핑하는 사전입니다.
csv_dataset
: CSV 데이터세트의 경로입니다.
workspace
: 작업 공간 디렉토리입니다.
destination_dir
: 다운로드한 오디오 파일의 대상 디렉터리입니다.
fs
: 샘플링 주파수.
eval_rate
: 평가율.
num_threads
: 다운로드 시 사용할 스레드 수입니다.
바로 이것이 AudioSet용 다운로더가 필요한 이유입니다. AudioSet에서 제공하는 CSV 파일에는 YouTube ID 및 관련 라벨에 대한 정보만 포함되어 있으며 실제 오디오 데이터는 포함되어 있지 않습니다. 반면에 TFRecord 파일에는 특징 벡터가 포함되어 있지만 일부 기계 학습 작업에 필요한 원시 오디오 신호는 포함되어 있지 않습니다.
다운로더를 사용하면 사용자는 오디오 데이터를 원시 형식으로 다운로드하고 이를 모델 교육에 사용할 수 있습니다. 이 도구는 사용자가 YouTube에서 개별 오디오 클립을 수동으로 검색하고 다운로드할 필요가 없기 때문에 시간과 노력을 절약하는 데 도움이 됩니다. 사용자는 또한 도구를 사용하여 레이블을 기반으로 오디오 클립을 필터링할 수 있으므로 특정 요구 사항에 맞는 사용자 지정 강력한 레이블 데이터 세트를 구축할 수 있습니다.
AudioSet은 Google에서 CSV 파일 세트로 다운로드할 수 있습니다. 데이터세트의 각 요소에 대해 CSV 파일에는 연결된 YouTube ID, 시작 시간, 종료 시간 및 클래스 라벨이 나열됩니다. CSV 파일은 AudioSet을 원시 오디오 파일(WAV)로 다운로드하는 데 사용됩니다.
이 저장소는 교육 및 연구 목적으로만 사용됩니다. 이 도구를 사용할 때 AudioSet의 사용 약관 및 라이센스 계약을 준수하십시오.