Сквозное распознавание речи с использованием RNN-Transducer в Tensorflow 2.0
Эта модель распознавания речи основана на исследовательской работе Google по сквозному распознаванию речи для мобильных устройств и реализована на Python 3 с использованием Tensorflow 2.0.
Чтобы настроить среду, выполните следующую команду:
git clone --recurse https://github.com/noahchalifour/rnnt-speech-recognition.git
cd rnnt-speech-recognition
pip install tensorflow==2.2.0 # or tensorflow-gpu==2.2.0 for GPU support
pip install -r requirements.txt
./scripts/build_rnnt.sh # to setup the rnnt loss
Вы можете найти и скачать набор данных Common Voice здесь.
Прежде чем вы сможете обучить модель на наборе данных Common Voice, вы должны сначала преобразовать все типы аудиофайлов mp3 в wavs. Сделайте это, выполнив следующую команду:
ПРИМЕЧАНИЕ. Убедитесь, что на вашем компьютере установлен
ffmpeg
, поскольку он использует его для преобразования mp3 в wav.
./scripts/common_voice_convert.sh <data_dir> <# of threads>
python scripts/remove_missing_samples.py
--data_dir <data_dir>
--replace_old
После преобразования всех mp3-файлов в wav-файлы, которые вам необходимо предварительно обработать набор данных, вы можете сделать это, выполнив следующую команду:
python preprocess_common_voice.py
--data_dir <data_dir>
--output_dir <preprocessed_dir>
Чтобы обучить простую модель, выполните следующую команду:
python run_rnnt.py
--mode train
--data_dir <path to data directory>