rnnt speech recognition
1.0.0
Tensorflow 2.0에서 RNN-Transducer를 사용한 엔드투엔드 음성 인식
이 음성 인식 모델은 Google의 모바일 장치용 스트리밍 엔드투엔드 음성 인식 연구 논문을 기반으로 하며 Tensorflow 2.0을 사용하여 Python 3에서 구현됩니다.
환경을 설정하려면 다음 명령을 실행하십시오.
git clone --recurse https://github.com/noahchalifour/rnnt-speech-recognition.git
cd rnnt-speech-recognition
pip install tensorflow==2.2.0 # or tensorflow-gpu==2.2.0 for GPU support
pip install -r requirements.txt
./scripts/build_rnnt.sh # to setup the rnnt loss
여기에서 Common Voice 데이터세트를 찾아 다운로드할 수 있습니다.
Common Voice 데이터 세트에서 모델을 교육하려면 먼저 모든 오디오 mp3 파일 형식을 wav로 변환해야 합니다. 다음 명령을 실행하여 수행하십시오.
참고: mp3를 wav로 변환하는 데 사용되는
ffmpeg
컴퓨터에 설치되어 있는지 확인하십시오.
./scripts/common_voice_convert.sh <data_dir> <# of threads>
python scripts/remove_missing_samples.py
--data_dir <data_dir>
--replace_old
모든 mp3를 wav로 변환한 후 데이터 세트를 전처리해야 하며 다음 명령을 실행하여 이를 수행할 수 있습니다.
python preprocess_common_voice.py
--data_dir <data_dir>
--output_dir <preprocessed_dir>
간단한 모델을 학습하려면 다음 명령어를 실행하세요.
python run_rnnt.py
--mode train
--data_dir <path to data directory>