rnnt speech recognition
1.0.0
在 Tensorflow 2.0 中使用 RNN-Transducer 進行端對端語音識別
此語音辨識模型基於 Google 的行動裝置串流端對端語音辨識研究論文,並使用 Tensorflow 2.0 在 Python 3 中實現
若要設定您的環境,請執行以下命令:
git clone --recurse https://github.com/noahchalifour/rnnt-speech-recognition.git
cd rnnt-speech-recognition
pip install tensorflow==2.2.0 # or tensorflow-gpu==2.2.0 for GPU support
pip install -r requirements.txt
./scripts/build_rnnt.sh # to setup the rnnt loss
您可以在此處找到並下載 Common Voice 資料集
在 Common Voice 資料集上訓練模型之前,必須先將所有音訊 mp3 檔案類型轉換為 wav。透過執行以下命令來執行此操作:
注意:確保您的電腦上安裝了
ffmpeg
,因為它使用它將 mp3 轉換為 wav
./scripts/common_voice_convert.sh <data_dir> <# of threads>
python scripts/remove_missing_samples.py
--data_dir <data_dir>
--replace_old
將所有 mp3 轉換為 wav 後,您需要預處理資料集,可以透過執行以下命令來完成:
python preprocess_common_voice.py
--data_dir <data_dir>
--output_dir <preprocessed_dir>
要訓練簡單模型,請執行以下命令:
python run_rnnt.py
--mode train
--data_dir <path to data directory>