Descargar voice_activity_detection - voice_activity_detection Descarga del código fuente

voice_activity_detection

Código Fuente de IA

1.0.0

Descargar

Proyecto de detección de actividad de voz

Palabras clave: Python, TensorFlow, Deep Learning, clasificación de series temporales

Tabla de contenido

Instalación
1.1 Instalación básica
1.2 Instalación del entorno virtual
1.3 Instalación de Docker
Introducción
2.1 Objetivo
2.2 Resultados
Estructura del proyecto
Conjunto de datos
Uso del proyecto
5.1 Etiquetado automático de conjuntos de datos
5.2 Grabar datos sin procesar en formato .tfrecord
5.3 Entrenar una CNN para clasificar señales de voz y ruido
5.4 Exportar modelo entrenado y ejecutar inferencia en el conjunto de prueba
Hacer
Recursos

1. Instalación

Este proyecto fue diseñado para:

ubuntu 20.04
Pitón 3.7.3
TensorFlow 1.15.4

$ cd /path/to/project/
$ git clone https://github.com/filippogiruzzi/voice_activity_detection.git
$ cd voice_activity_detection/

1.1 Instalación básica

️ ¡Se recomienda utilizar entornos virtuales!

$ pyenv install 3.7.3
$ pyenv virtualenv 3.7.3 vad-venv
$ pyenv activate vad-venv

$ pip install -r requirements.txt
$ pip install -e .

1.2 Instalación del entorno virtual

1.3 Instalación de Docker

Puede extraer la imagen más reciente de DockerHub y ejecutar comandos de Python dentro del contenedor:

$ docker pull filippogrz/tf-vad:latest
$ docker run --rm --gpus all -v /var/run/docker.sock:/var/run/docker.sock -it --entrypoint /bin/bash -e TF_FORCE_GPU_ALLOW_GROWTH=true filippogrz/tf-vad

Si desea crear la imagen de la ventana acoplable y ejecutar el contenedor desde cero, ejecute los siguientes comandos.

Construya la imagen de la ventana acoplable:

$ make build

(Esto puede tardar un poco).

Ejecute la imagen de la ventana acoplable:

$ make local-nobuild

2. Introducción

2.1 Objetivo

El propósito de este proyecto es diseñar e implementar un algoritmo de Detección de Actividad de Voz en tiempo real basado en Deep Learning.

La solución diseñada se basa en la extracción de características MFCC y un modelo 1D-Resnet que clasifica si una señal de audio es voz o ruido.

2.2 Resultados

Modelo	Tren según	Val según	Prueba según
1D-Resnet	99 %	98%	97%

A continuación se muestran los resultados de inferencia sin procesar y posprocesados en una señal de audio de prueba.

alt text

3. Estructura del proyecto

El proyecto voice_activity_detection/ tiene la siguiente estructura:

vad/data_processing/ : etiquetado, procesamiento, registro y visualización de datos sin procesar
vad/training/ : datos, canal de entrada, modelo y entrenamiento/evaluación/predicción
vad/inference/ : exportar modelo entrenado e inferencia

4. Conjunto de datos

Descargue el conjunto de datos del corpus LibriSpeech ASR desde https://openslr.org/12/ y extraiga todos los archivos a: /path/to/LibriSpeech/ .

El conjunto de datos contiene aproximadamente 1000 horas de lectura de voz en inglés a 16 kHz de audiolibros y es muy adecuado para la detección de actividad de voz.

Anoté automáticamente el conjunto test-clean del conjunto de datos con un modelo VAD previamente entrenado.

No dude en utilizar las labels/ carpeta y el modelo VAD previamente entrenado (solo para inferencia) desde este enlace.

5. Uso del proyecto

$ cd /path/to/project/voice_activity_detection/vad/

5.1 Etiquetado automático de conjuntos de datos

Omita esta subsección si ya tiene la carpeta labels/ , que contiene anotaciones de un modelo previamente entrenado diferente.

$ python data_processing/librispeech_label_data.py --data-dir /path/to/LibriSpeech/test-clean/ --exported-model /path/to/pretrained/model/

Esto registrará las anotaciones en /path/to/LibriSpeech/labels/ como archivos .json .

5.2 Grabar datos sin procesar en formato .tfrecord

$ python data_processing/data_to_tfrecords.py --data-dir /path/to/LibriSpeech/

Esto registrará los datos divididos en formato .tfrecord en /path/to/LibriSpeech/tfrecords/

5.3 Entrenar una CNN para clasificar señales de voz y ruido

$ python training/train.py --data-dir /path/to/LibriSpeech/tfrecords/

5.4 Exportar modelo entrenado y ejecutar inferencia en el conjunto de prueba

$ python inference/export_model.py --model-dir /path/to/trained/model/dir/
$ python inference/inference.py --data-dir /path/to/LibriSpeech/ --exported-model /path/to/exported/model/ --smoothing

El modelo entrenado se registrará en /path/to/LibriSpeech/tfrecords/models/resnet1d/ . El modelo exportado se registrará dentro de este directorio.

6. Todo

Compare el modelo de aprendizaje profundo con una línea base simple
Entrenar con un conjunto de datos completo
Mejorar el equilibrio de datos
Agregar aumento de datos de series temporales
Curva ROC de estudio y umbral de clasificación
Agregar inferencia en línea
Evaluar cuantitativamente los métodos de posprocesamiento en el conjunto de prueba.
Agregar descripción del modelo y gráficos de entrenamiento
Agregar demostración de Google Colab

7. Recursos

Detección de actividad de voz para interfaz de usuario de voz , mediana
Aprendizaje profundo para la clasificación de series temporales: una revisión , Fawaz et al., 2018, Arxiv
Clasificación de series temporales desde cero con redes neuronales profundas: una base sólida , Wang et al., 2016, Arxiv

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-01-27
tamaño 226.03KB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
flutter_voice_friend

2024-11-01
Motor de análisis de datos Lihua versión gratuita 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
node telegram bot api

Código Fuente de IA

v0.50.0
typebot.io

Código Fuente de IA

v3.1.2
python wechaty getting started

Código Fuente de IA

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo