rnnt speech recognition
1.0.0
การรู้จำเสียงจากต้นทางถึงปลายทางโดยใช้ RNN-Transducer ใน Tensorflow 2.0
โมเดลการรู้จำเสียงนี้อิงตามรายงานการวิจัยการรู้จำเสียงแบบ End-to-end สำหรับอุปกรณ์มือถือของ Google และนำไปใช้ใน Python 3 โดยใช้ Tensorflow 2.0
หากต้องการตั้งค่าสภาพแวดล้อมของคุณ ให้รันคำสั่งต่อไปนี้:
git clone --recurse https://github.com/noahchalifour/rnnt-speech-recognition.git
cd rnnt-speech-recognition
pip install tensorflow==2.2.0 # or tensorflow-gpu==2.2.0 for GPU support
pip install -r requirements.txt
./scripts/build_rnnt.sh # to setup the rnnt loss
คุณสามารถค้นหาและดาวน์โหลดชุดข้อมูล Common Voice ได้ที่นี่
ก่อนที่คุณจะสามารถฝึกโมเดลบนชุดข้อมูล Common Voice คุณต้องแปลงประเภทไฟล์เสียง MP3 ทั้งหมดเป็น WAV ก่อน ทำได้โดยรันคำสั่งต่อไปนี้:
หมายเหตุ: ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง
ffmpeg
บนคอมพิวเตอร์ของคุณแล้ว เนื่องจากจะใช้สิ่งนั้นในการแปลง mp3 เป็น wav
./scripts/common_voice_convert.sh <data_dir> <# of threads>
python scripts/remove_missing_samples.py
--data_dir <data_dir>
--replace_old
หลังจากแปลง mp3 ทั้งหมดเป็น WAV แล้ว คุณต้องประมวลผลชุดข้อมูลล่วงหน้า คุณสามารถทำได้โดยการรันคำสั่งต่อไปนี้:
python preprocess_common_voice.py
--data_dir <data_dir>
--output_dir <preprocessed_dir>
หากต้องการฝึกโมเดลอย่างง่าย ให้รันคำสั่งต่อไปนี้:
python run_rnnt.py
--mode train
--data_dir <path to data directory>