تنزيل voice_activity_detection - تنزيل رمز المصدر voice_activity

voice_activity_detection

كود الذكاء الاصطناعي

1.0.0

تنزيل

مشروع كشف النشاط الصوتي

الكلمات المفتاحية: بايثون، TensorFlow، التعلم العميق، تصنيف السلاسل الزمنية

جدول المحتويات

تثبيت
1.1 التثبيت الأساسي
1.2 تركيب البيئة الافتراضية
1.3 تثبيت عامل الميناء
مقدمة
2.1 الهدف
2.2 النتائج
هيكل المشروع
مجموعة البيانات
استخدام المشروع
5.1 وضع العلامات التلقائية على مجموعة البيانات
5.2 تسجيل البيانات الأولية بتنسيق tfrecord
5.3 تدريب CNN على تصنيف إشارات الكلام والضوضاء
5.4 تصدير النموذج المُدرب وتشغيل الاستدلال على مجموعة الاختبار
ما يجب القيام به
موارد

1. التثبيت

تم تصميم هذا المشروع من أجل:

أوبونتو 20.04
بايثون 3.7.3
TensorFlow 1.15.4

$ cd /path/to/project/
$ git clone https://github.com/filippogiruzzi/voice_activity_detection.git
$ cd voice_activity_detection/

1.1 التثبيت الأساسي

️ يوصى باستخدام البيئات الافتراضية!

$ pyenv install 3.7.3
$ pyenv virtualenv 3.7.3 vad-venv
$ pyenv activate vad-venv

$ pip install -r requirements.txt
$ pip install -e .

1.2 تركيب البيئة الافتراضية

1.3 تثبيت عامل الميناء

يمكنك سحب أحدث صورة من DockerHub وتشغيل أوامر Python داخل الحاوية:

$ docker pull filippogrz/tf-vad:latest
$ docker run --rm --gpus all -v /var/run/docker.sock:/var/run/docker.sock -it --entrypoint /bin/bash -e TF_FORCE_GPU_ALLOW_GROWTH=true filippogrz/tf-vad

إذا كنت تريد إنشاء صورة عامل الإرساء وتشغيل الحاوية من البداية، فقم بتشغيل الأوامر التالية.

بناء صورة عامل الإرساء:

$ make build

(قد يستغرق هذا بعض الوقت.)

قم بتشغيل صورة عامل الإرساء:

$ make local-nobuild

2. مقدمة

2.1 الهدف

الغرض من هذا المشروع هو تصميم وتنفيذ خوارزمية الكشف عن النشاط الصوتي في الوقت الفعلي بناءً على التعلم العميق.

يعتمد الحل المصمم على استخراج ميزة MFCC ونموذج 1D-Resnet الذي يصنف ما إذا كانت الإشارة الصوتية عبارة عن كلام أم ضوضاء.

2.2 النتائج

نموذج	قطار الملحق.	فال لجنة التنسيق الإدارية.	اختبار ACC.
1D-ريسنيت	99%	98%	97%

تظهر أدناه نتائج الاستدلال الأولية وما بعد المعالجة على إشارة صوتية اختبارية.

alt text

3. هيكل المشروع

يحتوي المشروع voice_activity_detection/ على البنية التالية:

vad/data_processing/ : تصنيف البيانات الأولية ومعالجتها وتسجيلها وتصورها
vad/training/ : البيانات، خط أنابيب الإدخال، النموذج والتدريب/التقييم/التنبؤ
vad/inference/ : تصدير النموذج المُدرب والاستدلال

4. مجموعة البيانات

يُرجى تنزيل مجموعة بيانات LibriSpeech ASR من https://openslr.org/12/، واستخراج جميع الملفات إلى: /path/to/LibriSpeech/ .

تحتوي مجموعة البيانات على ما يقرب من 1000 ساعة من قراءة الكلام باللغة الإنجليزية من الكتب الصوتية بمعدل 16 كيلو هرتز، وهي مناسبة تمامًا لاكتشاف النشاط الصوتي.

لقد قمت تلقائيًا بتعليق مجموعة test-clean لمجموعة البيانات باستخدام نموذج VAD مُدرب مسبقًا.

لا تتردد في استخدام labels/ المجلد ونموذج VAD المُدرب مسبقًا (للاستدلال فقط) من هذا الرابط.

5. استخدام المشروع

$ cd /path/to/project/voice_activity_detection/vad/

5.1 وضع العلامات التلقائية على مجموعة البيانات

قم بتخطي هذا القسم الفرعي إذا كان لديك بالفعل labels/ المجلد الذي يحتوي على تعليقات توضيحية من نموذج مختلف تم تدريبه مسبقًا.

$ python data_processing/librispeech_label_data.py --data-dir /path/to/LibriSpeech/test-clean/ --exported-model /path/to/pretrained/model/

سيؤدي هذا إلى تسجيل التعليقات التوضيحية في /path/to/LibriSpeech/labels/ كملفات .json .

5.2 تسجيل البيانات الأولية بتنسيق tfrecord

$ python data_processing/data_to_tfrecords.py --data-dir /path/to/LibriSpeech/

سيؤدي هذا إلى تسجيل البيانات المقسمة إلى تنسيق .tfrecord في /path/to/LibriSpeech/tfrecords/

5.3 تدريب CNN على تصنيف إشارات الكلام والضوضاء

$ python training/train.py --data-dir /path/to/LibriSpeech/tfrecords/

5.4 تصدير النموذج المُدرب وتشغيل الاستدلال على مجموعة الاختبار

$ python inference/export_model.py --model-dir /path/to/trained/model/dir/
$ python inference/inference.py --data-dir /path/to/LibriSpeech/ --exported-model /path/to/exported/model/ --smoothing

سيتم تسجيل النموذج المدرب في /path/to/LibriSpeech/tfrecords/models/resnet1d/ . سيتم تسجيل النموذج المصدر داخل هذا الدليل.

6. ما يجب القيام به

قارن نموذج التعلم العميق بخط أساسي بسيط
التدريب على مجموعة البيانات الكاملة
تحسين توازن البيانات
إضافة زيادة بيانات السلاسل الزمنية
دراسة منحنى ROC وعتبة التصنيف
إضافة الاستدلال عبر الإنترنت
تقييم طرق ما بعد المعالجة كميًا في مجموعة الاختبار
إضافة وصف النموذج والرسوم البيانية للتدريب
أضف عرض Google Colab

7. الموارد

كشف النشاط الصوتي لواجهة المستخدم الصوتية ، متوسط
التعلم العميق لتصنيف السلاسل الزمنية: مراجعة ، فواز وآخرون، 2018، Arxiv
تصنيف السلاسل الزمنية من الصفر باستخدام الشبكات العصبية العميقة: خط أساس قوي ، وانغ وآخرون، 2016، Arxiv

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-01-27
الحجم 226.03KB
من Github

تطبيقات ذات صلة

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
flutter_voice_friend

2024-11-01
محرك تحليل البيانات Lihua الإصدار المجاني 3.0_search_navigation_collection_public Oplic_ranking_api

2022-06-28

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
node telegram bot api

كود الذكاء الاصطناعي

v0.50.0
typebot.io

كود الذكاء الاصطناعي

v3.1.2
python wechaty getting started

كود الذكاء الاصطناعي

1.0.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل