voice_activity_detection ดาวน์โหลด - voice_activity_detection ดาวน์โหลดซอร์สโค้ด

voice_activity_detection

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

โครงการตรวจจับกิจกรรมเสียง

คำสำคัญ: Python, TensorFlow, การเรียนรู้เชิงลึก, การจำแนกอนุกรมเวลา

สารบัญ

การติดตั้ง
1.1 การติดตั้งขั้นพื้นฐาน
1.2 การติดตั้งสภาพแวดล้อมเสมือน
1.3 การติดตั้งนักเทียบท่า
การแนะนำ
2.1 ประตู
2.2 ผลลัพธ์
โครงสร้างโครงการ
ชุดข้อมูล
การใช้งานโครงการ
5.1 การติดฉลากชุดข้อมูลอัตโนมัติ
5.2 บันทึกข้อมูลดิบในรูปแบบ .tfrecord
5.3 ฝึกอบรม CNN เพื่อจำแนกสัญญาณเสียงพูดและเสียงรบกวน
5.4 ส่งออกโมเดลที่ได้รับการฝึก & รันการอนุมานในชุดทดสอบ
สิ่งที่ต้องทำ
ทรัพยากร

1. การติดตั้ง

โครงการนี้ออกแบบมาสำหรับ:

อูบุนตู 20.04
หลาม 3.7.3
เทนเซอร์โฟลว์ 1.15.4

$ cd /path/to/project/
$ git clone https://github.com/filippogiruzzi/voice_activity_detection.git
$ cd voice_activity_detection/

1.1 การติดตั้งขั้นพื้นฐาน

ขอแนะนำให้ใช้สภาพแวดล้อมเสมือนจริง !

$ pyenv install 3.7.3
$ pyenv virtualenv 3.7.3 vad-venv
$ pyenv activate vad-venv

$ pip install -r requirements.txt
$ pip install -e .

1.2 การติดตั้งสภาพแวดล้อมเสมือน

1.3 การติดตั้งนักเทียบท่า

คุณสามารถดึงอิมเมจล่าสุดจาก DockerHub และรันคำสั่ง Python ภายในคอนเทนเนอร์ได้:

$ docker pull filippogrz/tf-vad:latest
$ docker run --rm --gpus all -v /var/run/docker.sock:/var/run/docker.sock -it --entrypoint /bin/bash -e TF_FORCE_GPU_ALLOW_GROWTH=true filippogrz/tf-vad

หากคุณต้องการสร้างอิมเมจนักเทียบท่าและรันคอนเทนเนอร์ตั้งแต่ต้น ให้รันคำสั่งต่อไปนี้

สร้างอิมเมจนักเทียบท่า:

$ make build

(การดำเนินการนี้อาจใช้เวลาสักครู่)

เรียกใช้อิมเมจนักเทียบท่า:

$ make local-nobuild

2. บทนำ

2.1 ประตู

วัตถุประสงค์ของโครงการนี้คือการออกแบบและใช้อัลกอริธึมการตรวจจับกิจกรรมเสียงแบบเรียลไทม์โดยอิงจากการเรียนรู้เชิงลึก

โซลูชันที่ได้รับการออกแบบนั้นอิงตามการแยกคุณสมบัติ MFCC และรุ่น 1D-Resnet ที่จัดประเภทว่าสัญญาณเสียงเป็นคำพูดหรือเสียงรบกวน

2.2 ผลลัพธ์

แบบอย่าง	ตามมาตรฐานรถไฟ	วาลแอค	ทดสอบตามมาตรฐาน
1D-เรสเน็ต	99 %	98 %	97 %

ผลการอนุมานดิบและหลังการประมวลผลกับสัญญาณเสียงทดสอบแสดงไว้ด้านล่าง

alt text

3. โครงสร้างโครงการ

โครงการ voice_activity_detection/ มีโครงสร้างดังต่อไปนี้:

vad/data_processing/ : การติดป้ายกำกับ การประมวลผล การบันทึก และการแสดงภาพข้อมูลดิบ
vad/training/ : ข้อมูล ไปป์ไลน์อินพุต แบบจำลองและการฝึกอบรม / การประเมินผล / การทำนาย
vad/inference/ : ส่งออกโมเดลที่ผ่านการฝึกอบรมและการอนุมาน

4. ชุดข้อมูล

โปรดดาวน์โหลดชุดข้อมูลคลังข้อมูล LibriSpeech ASR จาก https://openslr.org/12/ และแยกไฟล์ทั้งหมดไปที่ : /path/to/LibriSpeech/

ชุดข้อมูลประกอบด้วยคำพูดภาษาอังกฤษที่อ่านด้วยความถี่ 16kHz จากหนังสือเสียงประมาณ 1,000 ชั่วโมง และเหมาะอย่างยิ่งสำหรับการตรวจจับกิจกรรมด้วยเสียง

ฉันใส่คำอธิบายประกอบชุดข้อมูล test-clean ของชุดข้อมูลโดยอัตโนมัติด้วยโมเดล VAD ที่ได้รับการฝึกล่วงหน้า

โปรดใช้ labels/ โฟลเดอร์และโมเดล VAD ที่ได้รับการฝึกอบรมล่วงหน้า (สำหรับการอนุมานเท่านั้น) จากลิงก์นี้

5. การใช้โครงการ

$ cd /path/to/project/voice_activity_detection/vad/

5.1 การติดฉลากชุดข้อมูลอัตโนมัติ

ข้ามส่วนย่อยนี้หากคุณมี labels/ โฟลเดอร์ที่มีคำอธิบายประกอบจากโมเดลที่ได้รับการฝึกล่วงหน้าอื่น

$ python data_processing/librispeech_label_data.py --data-dir /path/to/LibriSpeech/test-clean/ --exported-model /path/to/pretrained/model/

วิธีนี้จะบันทึกคำอธิบายประกอบลงใน /path/to/LibriSpeech/labels/ เป็นไฟล์ . .json

5.2 บันทึกข้อมูลดิบในรูปแบบ .tfrecord

$ python data_processing/data_to_tfrecords.py --data-dir /path/to/LibriSpeech/

สิ่งนี้จะบันทึกข้อมูลที่แยกเป็นรูปแบบ .tfrecord ใน /path/to/LibriSpeech/tfrecords/

5.3 ฝึกอบรม CNN เพื่อจำแนกสัญญาณเสียงพูดและเสียงรบกวน

$ python training/train.py --data-dir /path/to/LibriSpeech/tfrecords/

5.4 ส่งออกโมเดลที่ได้รับการฝึก & รันการอนุมานในชุดทดสอบ

$ python inference/export_model.py --model-dir /path/to/trained/model/dir/
$ python inference/inference.py --data-dir /path/to/LibriSpeech/ --exported-model /path/to/exported/model/ --smoothing

โมเดลที่ได้รับการฝึกจะถูกบันทึกใน /path/to/LibriSpeech/tfrecords/models/resnet1d/ โมเดลที่ส่งออกจะถูกบันทึกไว้ภายในไดเร็กทอรีนี้

6. สิ่งที่ต้องทำ

เปรียบเทียบโมเดลการเรียนรู้เชิงลึกกับข้อมูลพื้นฐานอย่างง่าย
ฝึกฝนชุดข้อมูลเต็มรูปแบบ
ปรับปรุงความสมดุลของข้อมูล
เพิ่มการเพิ่มข้อมูลอนุกรมเวลา
ศึกษาเส้นโค้ง ROC และเกณฑ์การจำแนกประเภท
เพิ่มการอนุมานออนไลน์
ประเมินวิธีการหลังการประมวลผลเชิงปริมาณในชุดทดสอบ
เพิ่มคำอธิบายโมเดลและกราฟการฝึก
เพิ่มการสาธิต Google Colab

7. ทรัพยากร

การตรวจจับกิจกรรมเสียงสำหรับส่วนต่อประสานผู้ใช้ด้วยเสียง ขนาดกลาง
การเรียนรู้เชิงลึกสำหรับการจำแนกอนุกรมเวลา: บทวิจารณ์ , Fawaz et al., 2018, Arxiv
การจำแนกอนุกรมเวลาตั้งแต่เริ่มต้นด้วย Deep Neural Networks: A Strong Baseline , Wang et al., 2016, Arxiv

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-01-27
ขนาด 226.03KB
มาจาก Github

แอปที่เกี่ยวข้อง

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
flutter_voice_friend

2024-11-01
เครื่องมือวิเคราะห์ข้อมูล Lihua เวอร์ชันฟรี 3.0_search_navigation_collection_public comment_ranking_api

2022-06-28

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
node telegram bot api

โค้ดแหล่งที่มา AI

v0.50.0
typebot.io

โค้ดแหล่งที่มา AI

v3.1.2
python wechaty getting started

โค้ดแหล่งที่มา AI

1.0.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด