Pengenalan ucapan ujung ke ujung menggunakan RNN-Transducer di Tensorflow 2.0
Model pengenalan ucapan ini didasarkan pada makalah penelitian Streaming Pengenalan Ucapan End-to-end Untuk Perangkat Seluler Google dan diimplementasikan dalam Python 3 menggunakan Tensorflow 2.0
Untuk mengatur lingkungan Anda, jalankan perintah berikut:
git clone --recurse https://github.com/noahchalifour/rnnt-speech-recognition.git
cd rnnt-speech-recognition
pip install tensorflow==2.2.0 # or tensorflow-gpu==2.2.0 for GPU support
pip install -r requirements.txt
./scripts/build_rnnt.sh # to setup the rnnt loss
Anda dapat menemukan dan mengunduh kumpulan data Common Voice di sini
Sebelum Anda dapat melatih model pada kumpulan data Common Voice, Anda harus terlebih dahulu mengonversi semua jenis file audio mp3 ke wavs. Lakukan dengan menjalankan perintah berikut:
CATATAN: Pastikan Anda telah menginstal
ffmpeg
di komputer Anda, karena ffmpeg menggunakannya untuk mengonversi mp3 ke wav
./scripts/common_voice_convert.sh <data_dir> <# of threads>
python scripts/remove_missing_samples.py
--data_dir <data_dir>
--replace_old
Setelah mengonversi semua mp3 menjadi wav, Anda perlu melakukan praproses pada kumpulan data, Anda dapat melakukannya dengan menjalankan perintah berikut:
python preprocess_common_voice.py
--data_dir <data_dir>
--output_dir <preprocessed_dir>
Untuk melatih model sederhana, jalankan perintah berikut:
python run_rnnt.py
--mode train
--data_dir <path to data directory>