Unduh voice_activity_detection - unduh kode sumber voice_activity

voice_activity_detection

Kode Sumber AI

1.0.0

Unduh

Proyek Deteksi Aktivitas Suara

Kata Kunci: Python, TensorFlow, Deep Learning, klasifikasi Time Series

Daftar isi

Instalasi
1.1 Instalasi dasar
1.2 Instalasi lingkungan virtual
1.3 Instalasi buruh pelabuhan
Perkenalan
2.1 Tujuan
2.2 Hasil
Struktur proyek
Kumpulan data
Penggunaan proyek
5.1 Pelabelan otomatis kumpulan data
5.2 Rekam data mentah ke format .tfrecord
5.3 Latih CNN untuk mengklasifikasikan sinyal Ucapan & Kebisingan
5.4 Ekspor model terlatih & jalankan inferensi pada set Tes
Semua yang harus dilakukan
Sumber daya

1. Instalasi

Proyek ini dirancang untuk:

Ubuntu 20.04
Python 3.7.3
TensorFlow 1.15.4

$ cd /path/to/project/
$ git clone https://github.com/filippogiruzzi/voice_activity_detection.git
$ cd voice_activity_detection/

1.1 Instalasi dasar

️ Disarankan untuk menggunakan lingkungan virtual!

$ pyenv install 3.7.3
$ pyenv virtualenv 3.7.3 vad-venv
$ pyenv activate vad-venv

$ pip install -r requirements.txt
$ pip install -e .

1.2 Instalasi lingkungan virtual

1.3 Instalasi buruh pelabuhan

Anda dapat mengambil image terbaru dari DockerHub dan menjalankan perintah Python di dalam container:

$ docker pull filippogrz/tf-vad:latest
$ docker run --rm --gpus all -v /var/run/docker.sock:/var/run/docker.sock -it --entrypoint /bin/bash -e TF_FORCE_GPU_ALLOW_GROWTH=true filippogrz/tf-vad

Jika Anda ingin membuat image buruh pelabuhan dan menjalankan container dari awal, jalankan perintah berikut.

Bangun gambar buruh pelabuhan:

$ make build

(Ini mungkin memakan waktu cukup lama.)

Jalankan gambar buruh pelabuhan:

$ make local-nobuild

2. Pendahuluan

2.1 Tujuan

Tujuan dari proyek ini adalah untuk merancang dan mengimplementasikan algoritma Deteksi Aktivitas Suara real-time berdasarkan Deep Learning.

Solusi yang dirancang didasarkan pada ekstraksi fitur MFCC dan model 1D-Resnet yang mengklasifikasikan apakah sinyal audio berupa ucapan atau derau.

2.2 Hasil

Model	Kereta api acc.	Val menurut.	Tes menurut.
1D-Resnet	99%	98%	97%

Hasil inferensi mentah dan pasca-pemrosesan pada sinyal audio pengujian ditunjukkan di bawah ini.

alt text

3. Struktur proyek

Proyek voice_activity_detection/ memiliki struktur berikut:

vad/data_processing/ : pelabelan, pemrosesan, perekaman & visualisasi data mentah
vad/training/ : data, saluran masukan, model & pelatihan/evaluasi/prediksi
vad/inference/ : mengekspor model & inferensi terlatih

4. Kumpulan data

Silakan unduh kumpulan data korpus LibriSpeech ASR dari https://openslr.org/12/, dan ekstrak semua file ke : /path/to/LibriSpeech/ .

Kumpulan data ini berisi sekitar 1000 jam 16kHz membaca pidato bahasa Inggris dari buku audio, dan sangat cocok untuk Deteksi Aktivitas Suara.

Saya secara otomatis memberi anotasi pada kumpulan data test-clean dengan model VAD yang telah dilatih sebelumnya.

Silakan gunakan labels/ folder dan model VAD terlatih (hanya untuk inferensi) dari tautan ini.

5. Penggunaan proyek

$ cd /path/to/project/voice_activity_detection/vad/

5.1 Pelabelan otomatis kumpulan data

Lewati subbagian ini jika Anda sudah memiliki labels/ folder, yang berisi anotasi dari model terlatih lainnya.

$ python data_processing/librispeech_label_data.py --data-dir /path/to/LibriSpeech/test-clean/ --exported-model /path/to/pretrained/model/

Ini akan merekam anotasi ke dalam /path/to/LibriSpeech/labels/ sebagai file .json .

5.2 Rekam data mentah ke format .tfrecord

$ python data_processing/data_to_tfrecords.py --data-dir /path/to/LibriSpeech/

Ini akan merekam data yang dipisahkan ke format .tfrecord di /path/to/LibriSpeech/tfrecords/

5.3 Latih CNN untuk mengklasifikasikan sinyal Ucapan & Kebisingan

$ python training/train.py --data-dir /path/to/LibriSpeech/tfrecords/

5.4 Ekspor model terlatih & jalankan inferensi pada set Tes

$ python inference/export_model.py --model-dir /path/to/trained/model/dir/
$ python inference/inference.py --data-dir /path/to/LibriSpeech/ --exported-model /path/to/exported/model/ --smoothing

Model yang dilatih akan dicatat di /path/to/LibriSpeech/tfrecords/models/resnet1d/ . Model yang diekspor akan dicatat di dalam direktori ini.

6. Tugas

Bandingkan model Pembelajaran Mendalam dengan dasar sederhana
Berlatih dengan kumpulan data lengkap
Meningkatkan keseimbangan data
Tambahkan augmentasi data deret waktu
Pelajari kurva ROC & ambang klasifikasi
Tambahkan inferensi online
Evaluasi metode pasca-pemrosesan secara kuantitatif pada set Tes
Tambahkan deskripsi model & grafik pelatihan
Tambahkan demo Google Colab

7. Sumber Daya

Deteksi Aktivitas Suara untuk Antarmuka Pengguna Suara , Sedang
Pembelajaran mendalam untuk klasifikasi deret waktu: ulasan , Fawaz dkk., 2018, Arxiv
Klasifikasi Rangkaian Waktu dari Awal dengan Jaringan Neural Dalam: Garis Dasar yang Kuat , Wang dkk., 2016, Arxiv

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-01-27
ukuran 226.03KB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
flutter_voice_friend

2024-11-01
Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
node telegram bot api

Kode Sumber AI

v0.50.0
typebot.io

Kode Sumber AI

v3.1.2
python wechaty getting started

Kode Sumber AI

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua