voice_activity_detectionダウンロード - voice_activity_detectionソースコードのダウンロード

voice_activity_detection

AI ソースコード

1.0.0

ダウンロード

音声アクティビティ検出プロジェクト

キーワード: Python、TensorFlow、深層学習、時系列分類

インストール
1.1 基本的なインストール
1.2 仮想環境のインストール
1.3 Dockerのインストール
導入
2.1 目標
2.2 結果
プロジェクトの構造
データセット
プロジェクトの使用法
5.1 データセットの自動ラベル付け
5.2 生データを .tfrecord 形式で記録する
5.3 CNN をトレーニングして音声信号とノイズ信号を分類する
5.4 トレーニング済みモデルをエクスポートし、テストセットで推論を実行する
藤堂
リソース

1. インストール

このプロジェクトは次の目的で設計されました。

Ubuntu 20.04
Python 3.7.3
TensorFlow 1.15.4

$ cd /path/to/project/
$ git clone https://github.com/filippogiruzzi/voice_activity_detection.git
$ cd voice_activity_detection/

1.1 基本的なインストール

️仮想環境の使用を推奨します。

$ pyenv install 3.7.3
$ pyenv virtualenv 3.7.3 vad-venv
$ pyenv activate vad-venv

$ pip install -r requirements.txt
$ pip install -e .

1.2 仮想環境のインストール

1.3 Dockerのインストール

DockerHub から最新のイメージを取得し、コンテナー内で Python コマンドを実行できます。

$ docker pull filippogrz/tf-vad:latest
$ docker run --rm --gpus all -v /var/run/docker.sock:/var/run/docker.sock -it --entrypoint /bin/bash -e TF_FORCE_GPU_ALLOW_GROWTH=true filippogrz/tf-vad

Docker イメージを構築してコンテナーを最初から実行する場合は、次のコマンドを実行します。

Docker イメージをビルドします。

$ make build

(これには少し時間がかかる場合があります。)

docker イメージを実行します。

$ make local-nobuild

2. はじめに

2.1 目標

このプロジェクトの目的は、深層学習に基づいたリアルタイムの音声アクティビティ検出アルゴリズムを設計および実装することです。

設計されたソリューションは、MFCC 特徴抽出と、オーディオ信号が音声かノイズかを分類する 1D-Resnet モデルに基づいています。

2.2 結果

モデル	電車に応じて	値に応じて	テスト準拠
1D レスネット	99%	98%	97%

テストオーディオ信号の生の推論結果と後処理された推論結果を以下に示します。

alt text

3. プロジェクトの構造

プロジェクトvoice_activity_detection/構造は次のとおりです。

vad/data_processing/ : 生データのラベル付け、処理、記録、視覚化
vad/training/ : データ、入力パイプライン、モデルとトレーニング / 評価 / 予測
vad/inference/ : トレーニング済みモデルと推論のエクスポート

4. データセット

LibriSpeech ASR コーパスデータセットを https://openslr.org/12/ からダウンロードし、すべてのファイルを/path/to/LibriSpeech/に抽出してください。

このデータセットには、オーディオブックから読み取られた 16kHz の英語音声が約 1000 時間含まれており、音声アクティビティの検出に適しています。

事前トレーニングされた VAD モデルを使用して、データセットのtest-cleanセットに自動的にアノテーションを付けました。

このリンクからlabels/フォルダーと事前トレーニングされた VAD モデル (推論のみ) を自由に使用してください。

5. プロジェクトの使用方法

$ cd /path/to/project/voice_activity_detection/vad/

5.1 データセットの自動ラベル付け

別の事前トレーニング済みモデルからの注釈が含まれるlabels/フォルダーが既にある場合は、このサブセクションをスキップしてください。

$ python data_processing/librispeech_label_data.py --data-dir /path/to/LibriSpeech/test-clean/ --exported-model /path/to/pretrained/model/

これにより、注釈が/path/to/LibriSpeech/labels/に.jsonファイルとして記録されます。

5.2 生データを .tfrecord 形式で記録する

$ python data_processing/data_to_tfrecords.py --data-dir /path/to/LibriSpeech/

これにより、分割されたデータが/path/to/LibriSpeech/tfrecords/に.tfrecord形式で記録されます。

5.3 CNN をトレーニングして音声信号とノイズ信号を分類する

$ python training/train.py --data-dir /path/to/LibriSpeech/tfrecords/

5.4 トレーニング済みモデルをエクスポートし、テストセットで推論を実行する

$ python inference/export_model.py --model-dir /path/to/trained/model/dir/
$ python inference/inference.py --data-dir /path/to/LibriSpeech/ --exported-model /path/to/exported/model/ --smoothing

トレーニングされたモデルは/path/to/LibriSpeech/tfrecords/models/resnet1d/に記録されます。エクスポートされたモデルは、このディレクトリ内に記録されます。