Este repositório fornece uma ferramenta para baixar clipes de áudio com rótulos fortes do AudioSet, um conjunto de dados em grande escala de eventos de áudio anotados. A ferramenta pode ser usada para construir conjuntos de dados de áudio de rótulo forte personalizados para tarefas de aprendizado de máquina.
Baixe arquivos de áudio do AudioSet com eficiência com base em rótulos específicos.
Suporta vários downloads paralelos para acelerar o processo.
Flexibilidade para escolher a quantidade de arquivos de áudio para download por gravadora.
Sistema de registro conveniente para acompanhar o processo de download.
A configuração do processo de download pode ser feita através de um arquivo config.yaml
.
python3
ffmpeg
youtube-dl
Clone este repositório:
git clone https://github.com/seu-nome de usuário/audioset-downloader.git
Instale dependências:
pip instalar -r requisitos.txt
Execute o script input_label.py
para gerar o dicionário de rótulos:
python input_label.py
Abra o arquivo config.yaml e cole o dicionário de rótulos gerado na etapa anterior. Modifique os outros campos do arquivo conforme desejado.
Execute o script main.py para baixar clipes de áudio: Baixa arquivos de áudio para uma pasta output/dataset
no diretório atual.
python principal.py
Usa arquivos CSV encontrados em core/
por padrão. Execute main.py
em seu próprio diretório.
A configuração da ferramenta é especificada no arquivo config.yaml. Os seguintes campos estão disponíveis:
labels
: lista de rótulos para download.
labels_id_dict
: rótulos de mapeamento de dicionário para IDs AudioSet.
csv_dataset
: caminho para o conjunto de dados CSV.
workspace
: diretório do espaço de trabalho.
destination_dir
: diretório de destino para os arquivos de áudio baixados.
fs
: Frequência de amostragem.
eval_rate
: Taxa de avaliação.
num_threads
: Número de threads a serem usados durante o download.
Exatamente, é por isso que é necessário um downloader para AudioSet. Os arquivos CSV fornecidos pelo AudioSet contêm apenas informações sobre os IDs do YouTube e os rótulos associados, mas não os dados de áudio reais. Por outro lado, os arquivos TFRecord contêm os vetores de recursos, mas não os sinais de áudio brutos, necessários para algumas tarefas de aprendizado de máquina.
Ao usar um downloader, os usuários podem baixar os dados de áudio em formato bruto e usá-los para treinar seus modelos. Esta ferramenta pode ajudar a economizar tempo e esforço, já que o usuário não precisa procurar e baixar manualmente cada clipe de áudio individual do YouTube. O usuário também pode usar a ferramenta para filtrar os clipes de áudio com base em seus rótulos, permitindo-lhes construir um conjunto de dados de rótulos fortes e personalizados, adaptado às suas necessidades específicas.
AudioSet pode ser baixado do Google aqui como um conjunto de arquivos CSV. Para cada elemento no conjunto de dados, os arquivos CSV listam um ID do YouTube associado, horário de início, horário de término e rótulos de classe. Os arquivos CSV são usados para baixar o AudioSet como arquivos de áudio brutos (WAV).
Este repositório é apenas para fins educacionais e de pesquisa. Respeite os termos de uso e os contratos de licença do AudioSet ao usar esta ferramenta.