voice_activity_detection Télécharger - voice_activity_detection Téléchargement du code source

voice_activity_detection

Code Source AI

1.0.0

Télécharger

Projet de détection d'activité vocale

Mots clés : Python, TensorFlow, Deep Learning, classification de séries temporelles

Table des matières

Installation
1.1Installation de base
1.2 Installation de l'environnement virtuel
1.3Installation du Docker
Introduction
2.1 Objectif
2.2 Résultats
Structure du projet
Ensemble de données
Utilisation du projet
5.1 Étiquetage automatique des ensembles de données
5.2 Enregistrer les données brutes au format .tfrecord
5.3 Entraîner un CNN à classer les signaux vocaux et sonores
5.4 Exporter le modèle entraîné et exécuter l'inférence sur l'ensemble de test
Faire
Ressources

1.Installation

Ce projet a été conçu pour :

Ubuntu 20.04
Python 3.7.3
TensorFlow 1.15.4

$ cd /path/to/project/
$ git clone https://github.com/filippogiruzzi/voice_activity_detection.git
$ cd voice_activity_detection/

1.1Installation de base

️ Il est recommandé d'utiliser des environnements virtuels !

$ pyenv install 3.7.3
$ pyenv virtualenv 3.7.3 vad-venv
$ pyenv activate vad-venv

$ pip install -r requirements.txt
$ pip install -e .

1.2 Installation de l'environnement virtuel

1.3Installation du Docker

Vous pouvez extraire la dernière image de DockerHub et exécuter des commandes Python dans le conteneur :

$ docker pull filippogrz/tf-vad:latest
$ docker run --rm --gpus all -v /var/run/docker.sock:/var/run/docker.sock -it --entrypoint /bin/bash -e TF_FORCE_GPU_ALLOW_GROWTH=true filippogrz/tf-vad

Si vous souhaitez créer l'image Docker et exécuter le conteneur à partir de zéro, exécutez les commandes suivantes.

Créez l'image Docker :

$ make build

(Cela peut prendre un certain temps.)

Exécutez l'image Docker :

$ make local-nobuild

2. Introduction

2.1 Objectif

Le but de ce projet est de concevoir et d'implémenter un algorithme de détection d'activité vocale en temps réel basé sur le Deep Learning.

La solution conçue est basée sur l'extraction de fonctionnalités MFCC et un modèle 1D-Resnet qui classe si un signal audio est de la parole ou du bruit.

2.2 Résultats

Modèle	Train acc.	Val acc.	Test selon.
1D-Resnet	99 %	98 %	97 %

Les résultats d'inférence bruts et post-traités sur un signal audio de test sont présentés ci-dessous.

alt text

3. Structure du projet

Le projet voice_activity_detection/ a la structure suivante :

vad/data_processing/ : étiquetage, traitement, enregistrement et visualisation des données brutes
vad/training/ : données, pipeline d'entrée, modèle & formation / évaluation / prédiction
vad/inference/ : exportation du modèle entraîné et de l'inférence

4. Ensemble de données

Veuillez télécharger l'ensemble de données du corpus LibriSpeech ASR à partir de https://openslr.org/12/ et extraire tous les fichiers dans : /path/to/LibriSpeech/ .

L'ensemble de données contient environ 1 000 heures de discours en anglais lu à 16 kHz à partir de livres audio et est bien adapté à la détection de l'activité vocale.

J'ai automatiquement annoté l'ensemble test-clean de l'ensemble de données avec un modèle VAD pré-entraîné.

N'hésitez pas à utiliser le dossier labels/ et le modèle VAD pré-entraîné (uniquement à des fins d'inférence) à partir de ce lien.

5. Utilisation du projet

$ cd /path/to/project/voice_activity_detection/vad/

5.1 Étiquetage automatique des ensembles de données

Ignorez cette sous-section si vous disposez déjà du dossier labels/ , qui contient des annotations d'un autre modèle pré-entraîné.

$ python data_processing/librispeech_label_data.py --data-dir /path/to/LibriSpeech/test-clean/ --exported-model /path/to/pretrained/model/

Cela enregistrera les annotations dans /path/to/LibriSpeech/labels/ sous forme de fichiers .json .

5.2 Enregistrer les données brutes au format .tfrecord

$ python data_processing/data_to_tfrecords.py --data-dir /path/to/LibriSpeech/

Cela enregistrera les données divisées au format .tfrecord dans /path/to/LibriSpeech/tfrecords/

5.3 Entraîner un CNN à classer les signaux vocaux et sonores

$ python training/train.py --data-dir /path/to/LibriSpeech/tfrecords/

5.4 Exporter le modèle entraîné et exécuter l'inférence sur l'ensemble de test

$ python inference/export_model.py --model-dir /path/to/trained/model/dir/
$ python inference/inference.py --data-dir /path/to/LibriSpeech/ --exported-model /path/to/exported/model/ --smoothing

Le modèle entraîné sera enregistré dans /path/to/LibriSpeech/tfrecords/models/resnet1d/ . Le modèle exporté sera enregistré dans ce répertoire.

6. À faire

Comparez le modèle Deep Learning à une base de référence simple
Entraîner sur un ensemble de données complet
Améliorer l’équilibrage des données
Ajouter une augmentation des données de séries chronologiques
Etude de la courbe ROC et du seuil de classification
Ajouter une inférence en ligne
Évaluer quantitativement les méthodes de post-traitement sur l'ensemble de test
Ajouter une description du modèle et des graphiques de formation
Ajouter une démo Google Colab

7. Ressources

Détection d'activité vocale pour interface utilisateur vocale , moyenne
Apprentissage profond pour la classification des séries chronologiques : une revue , Fawaz et al., 2018, Arxiv
Classification des séries chronologiques à partir de zéro avec des réseaux de neurones profonds : une base de référence solide , Wang et al., 2016, Arxiv

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-01-27
taille 226.03KB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
flutter_voice_friend

2024-11-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout