download voice_activity_detection – Herunterladen des Quellcodes voice_activity

voice_activity_detection

AI-Quellcode

1.0.0

Herunterladen

Projekt zur Sprachaktivitätserkennung

Schlüsselwörter: Python, TensorFlow, Deep Learning, Zeitreihenklassifizierung

Inhaltsverzeichnis

Installation
1.1 Grundinstallation
1.2 Installation der virtuellen Umgebung
1.3 Docker-Installation
Einführung
2.1 Ziel
2.2 Ergebnisse
Projektstruktur
Datensatz
Projektnutzung
5.1 Automatische Beschriftung des Datensatzes
5.2 Rohdaten im .tfrecord-Format aufzeichnen
5.3 Trainieren Sie ein CNN, um Sprach- und Geräuschsignale zu klassifizieren
5.4 Exportieren Sie das trainierte Modell und führen Sie die Inferenz auf dem Testsatz aus
Todo
Ressourcen

1. Installation

Dieses Projekt wurde konzipiert für:

Ubuntu 20.04
Python 3.7.3
TensorFlow 1.15.4

$ cd /path/to/project/
$ git clone https://github.com/filippogiruzzi/voice_activity_detection.git
$ cd voice_activity_detection/

1.1 Grundinstallation

️ Es wird empfohlen, virtuelle Umgebungen zu verwenden!

$ pyenv install 3.7.3
$ pyenv virtualenv 3.7.3 vad-venv
$ pyenv activate vad-venv

$ pip install -r requirements.txt
$ pip install -e .

1.2 Installation der virtuellen Umgebung

1.3 Docker-Installation

Sie können das neueste Image von DockerHub abrufen und Python-Befehle im Container ausführen:

$ docker pull filippogrz/tf-vad:latest
$ docker run --rm --gpus all -v /var/run/docker.sock:/var/run/docker.sock -it --entrypoint /bin/bash -e TF_FORCE_GPU_ALLOW_GROWTH=true filippogrz/tf-vad

Wenn Sie das Docker-Image erstellen und den Container von Grund auf ausführen möchten, führen Sie die folgenden Befehle aus.

Erstellen Sie das Docker-Image:

$ make build

(Dies kann eine Weile dauern.)

Führen Sie das Docker-Image aus:

$ make local-nobuild

2. Einführung

2.1 Ziel

Der Zweck dieses Projekts besteht darin, einen auf Deep Learning basierenden Echtzeit-Algorithmus zur Sprachaktivitätserkennung zu entwerfen und zu implementieren.

Die entworfene Lösung basiert auf der MFCC-Merkmalsextraktion und einem 1D-Resnet-Modell, das klassifiziert, ob es sich bei einem Audiosignal um Sprache oder Rauschen handelt.

2.2 Ergebnisse

Modell	Zug gem.	Wert gem.	Prüfung gem.
1D-Resnet	99 %	98 %	97 %

Rohe und nachbearbeitete Inferenzergebnisse für ein Test-Audiosignal werden unten angezeigt.

alt text

3. Projektstruktur

Das Projekt voice_activity_detection/ hat die folgende Struktur:

vad/data_processing/ : Kennzeichnung, Verarbeitung, Aufzeichnung und Visualisierung von Rohdaten
vad/training/ : Daten, Eingabepipeline, Modell und Training/Bewertung/Vorhersage
vad/inference/ : Exportieren trainierter Modelle und Inferenzen

4. Datensatz

Bitte laden Sie den LibriSpeech ASR-Korpusdatensatz von https://openslr.org/12/ herunter und extrahieren Sie alle Dateien nach: /path/to/LibriSpeech/ .

Der Datensatz enthält etwa 1000 Stunden vorgelesene englische Sprache aus Hörbüchern mit 16 kHz und eignet sich gut für die Sprachaktivitätserkennung.

Ich habe den test-clean -Satz des Datensatzes automatisch mit einem vorab trainierten VAD-Modell annotiert.

Sie können gerne den Ordner labels/ und das vorab trainierte VAD-Modell (nur für Rückschlüsse) über diesen Link verwenden.

5. Projektnutzung

$ cd /path/to/project/voice_activity_detection/vad/

5.1 Automatische Beschriftung des Datensatzes

Überspringen Sie diesen Unterabschnitt, wenn Sie bereits über den Ordner labels/ verfügen, der Anmerkungen aus einem anderen vorab trainierten Modell enthält.

$ python data_processing/librispeech_label_data.py --data-dir /path/to/LibriSpeech/test-clean/ --exported-model /path/to/pretrained/model/

Dadurch werden die Anmerkungen als .json Dateien in /path/to/LibriSpeech/labels/ aufgezeichnet.

5.2 Rohdaten im .tfrecord-Format aufzeichnen

$ python data_processing/data_to_tfrecords.py --data-dir /path/to/LibriSpeech/

Dadurch werden die aufgeteilten Daten im .tfrecord Format in /path/to/LibriSpeech/tfrecords/ aufgezeichnet.

5.3 Trainieren Sie ein CNN, um Sprach- und Geräuschsignale zu klassifizieren

$ python training/train.py --data-dir /path/to/LibriSpeech/tfrecords/

5.4 Exportieren Sie das trainierte Modell und führen Sie die Inferenz auf dem Testsatz aus

$ python inference/export_model.py --model-dir /path/to/trained/model/dir/
$ python inference/inference.py --data-dir /path/to/LibriSpeech/ --exported-model /path/to/exported/model/ --smoothing

Das trainierte Modell wird in /path/to/LibriSpeech/tfrecords/models/resnet1d/ aufgezeichnet. Das exportierte Modell wird in diesem Verzeichnis aufgezeichnet.

6. Todo

Vergleichen Sie das Deep-Learning-Modell mit einer einfachen Basislinie
Trainieren Sie mit dem vollständigen Datensatz
Verbessern Sie den Datenausgleich
Fügen Sie eine Erweiterung der Zeitreihendaten hinzu
Studieren Sie die ROC-Kurve und den Klassifizierungsschwellenwert
Online-Inferenz hinzufügen
Bewerten Sie die Nachbearbeitungsmethoden des Testsatzes quantitativ
Fügen Sie eine Modellbeschreibung und Trainingsdiagramme hinzu
Fügen Sie eine Google Colab-Demo hinzu

7. Ressourcen

Sprachaktivitätserkennung für die Sprachbenutzeroberfläche , Mittel
Deep Learning für die Klassifizierung von Zeitreihen: eine Übersicht , Fawaz et al., 2018, Arxiv
Zeitreihenklassifizierung von Grund auf mit tiefen neuronalen Netzen: Eine starke Basislinie , Wang et al., 2016, Arxiv

Expandieren

Zusätzliche Informationen