download voice_activity_detection - download do código fonte de voice_activity

voice_activity_detection

Código-Fonte de IA

1.0.0

Baixar

Projeto de detecção de atividade de voz

Palavras-chave: Python, TensorFlow, Deep Learning, classificação de série temporal

Índice

Instalação
1.1 Instalação básica
1.2 Instalação do ambiente virtual
1.3 Instalação do Docker
Introdução
2.1 Objetivo
2.2 Resultados
Estrutura do projeto
Conjunto de dados
Uso do projeto
5.1 Rotulagem automática do conjunto de dados
5.2 Registre dados brutos no formato .tfrecord
5.3 Treine uma CNN para classificar sinais de fala e ruído
5.4 Exportar modelo treinado e executar inferência no conjunto de testes
Pendência
Recursos

1. Instalação

Este projeto foi pensado para:

Ubuntu 20.04
Pitão 3.7.3
TensorFlow 1.15.4

$ cd /path/to/project/
$ git clone https://github.com/filippogiruzzi/voice_activity_detection.git
$ cd voice_activity_detection/

1.1 Instalação básica

️ Recomenda-se usar ambientes virtuais!

$ pyenv install 3.7.3
$ pyenv virtualenv 3.7.3 vad-venv
$ pyenv activate vad-venv

$ pip install -r requirements.txt
$ pip install -e .

1.2 Instalação do ambiente virtual

1.3 Instalação do Docker

Você pode extrair a imagem mais recente do DockerHub e executar comandos Python dentro do contêiner:

$ docker pull filippogrz/tf-vad:latest
$ docker run --rm --gpus all -v /var/run/docker.sock:/var/run/docker.sock -it --entrypoint /bin/bash -e TF_FORCE_GPU_ALLOW_GROWTH=true filippogrz/tf-vad

Se você deseja construir a imagem do Docker e executar o contêiner do zero, execute os comandos a seguir.

Crie a imagem do Docker:

$ make build

(Isso pode demorar um pouco.)

Execute a imagem do Docker:

$ make local-nobuild

2. Introdução

2.1 Objetivo

O objetivo deste projeto é projetar e implementar um algoritmo de detecção de atividade de voz em tempo real baseado em Deep Learning.

A solução projetada é baseada na extração de recursos MFCC e em um modelo 1D-Resnet que classifica se um sinal de áudio é fala ou ruído.

2.2 Resultados

Modelo	Treinar acc.	Val, acc.	Teste conta.
1D-Resnet	99%	98%	97%

Os resultados de inferência brutos e pós-processados em um sinal de áudio de teste são mostrados abaixo.

alt text

3. Estrutura do projeto

O projeto voice_activity_detection/ possui a seguinte estrutura:

vad/data_processing/ : rotulagem, processamento, registro e visualização de dados brutos
vad/training/ : dados, pipeline de entrada, modelo e treinamento/avaliação/predição
vad/inference/ : exportando modelo treinado e inferência

4. Conjunto de dados

Baixe o conjunto de dados do corpus LibriSpeech ASR em https://openslr.org/12/ e extraia todos os arquivos para: /path/to/LibriSpeech/ .

O conjunto de dados contém aproximadamente 1.000 horas de fala em inglês lida em 16kHz em audiolivros e é adequado para detecção de atividade de voz.

Anotei automaticamente o conjunto test-clean do conjunto de dados com um modelo VAD pré-treinado.

Sinta-se à vontade para usar os labels/ pasta e o modelo VAD pré-treinado (apenas para inferência) deste link.

5. Uso do projeto

$ cd /path/to/project/voice_activity_detection/vad/

5.1 Rotulagem automática do conjunto de dados

Pule esta subseção se você já possui a pasta labels/ , que contém anotações de um modelo pré-treinado diferente.

$ python data_processing/librispeech_label_data.py --data-dir /path/to/LibriSpeech/test-clean/ --exported-model /path/to/pretrained/model/

Isso registrará as anotações em /path/to/LibriSpeech/labels/ como arquivos .json .

5.2 Registre dados brutos no formato .tfrecord

$ python data_processing/data_to_tfrecords.py --data-dir /path/to/LibriSpeech/

Isso registrará os dados divididos no formato .tfrecord em /path/to/LibriSpeech/tfrecords/

5.3 Treine uma CNN para classificar sinais de fala e ruído

$ python training/train.py --data-dir /path/to/LibriSpeech/tfrecords/

5.4 Exportar modelo treinado e executar inferência no conjunto de testes

$ python inference/export_model.py --model-dir /path/to/trained/model/dir/
$ python inference/inference.py --data-dir /path/to/LibriSpeech/ --exported-model /path/to/exported/model/ --smoothing

O modelo treinado será gravado em /path/to/LibriSpeech/tfrecords/models/resnet1d/ . O modelo exportado será gravado neste diretório.

6. Tudo

Compare o modelo de Deep Learning com uma linha de base simples
Treine com conjunto de dados completo
Melhore o balanceamento de dados
Adicionar aumento de dados de série temporal
Curva ROC do estudo e limite de classificação
Adicionar inferência online
Avalie quantitativamente os métodos de pós-processamento no conjunto de testes
Adicione descrição do modelo e gráficos de treinamento
Adicionar demonstração do Google Colab

7. Recursos

Detecção de atividade de voz para interface de usuário de voz , médio
Aprendizado profundo para classificação de séries temporais: uma revisão , Fawaz et al., 2018, Arxiv
Classificação de série temporal do zero com redes neurais profundas: uma linha de base forte , Wang et al., 2016, Arxiv

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-01-27
tamanho 226.03KB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
flutter_voice_friend

2024-11-01
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
node telegram bot api

Código-Fonte de IA

v0.50.0
typebot.io

Código-Fonte de IA

v3.1.2
python wechaty getting started

Código-Fonte de IA

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos