rnnt speech recognition Download - rnnt speech recognition Quellcode herunterladen

rnnt speech recognition

AI-Quellcode

1.0.0

Herunterladen

RNN-Transducer-Spracherkennung

End-to-End-Spracherkennung mit RNN-Transducer in Tensorflow 2.0

Überblick

Dieses Spracherkennungsmodell basiert auf dem Forschungspapier „Streaming End-to-end Speech Recognition For Mobile Devices“ von Google und wird in Python 3 mit Tensorflow 2.0 implementiert

Richten Sie Ihre Umgebung ein

Führen Sie zum Einrichten Ihrer Umgebung den folgenden Befehl aus:

 git clone --recurse https://github.com/noahchalifour/rnnt-speech-recognition.git
cd rnnt-speech-recognition
pip install tensorflow==2.2.0 # or tensorflow-gpu==2.2.0 for GPU support
pip install -r requirements.txt
./scripts/build_rnnt.sh # to setup the rnnt loss

Gemeinsame Stimme

Sie können den Common Voice-Datensatz hier finden und herunterladen

Konvertieren Sie alle MP3s in WAVs

Bevor Sie ein Modell anhand des Common Voice-Datensatzes trainieren können, müssen Sie zunächst alle Audio-MP3-Dateitypen in WAVs konvertieren. Führen Sie dazu den folgenden Befehl aus:

HINWEIS: Stellen Sie sicher, dass ffmpeg auf Ihrem Computer installiert ist, da es dieses zum Konvertieren von MP3 in WAV verwendet

 ./scripts/common_voice_convert.sh <data_dir> <# of threads>
python scripts/remove_missing_samples.py 
    --data_dir <data_dir> 
    --replace_old

Vorverarbeitungsdatensatz

Nachdem Sie alle MP3s in WAVs konvertiert haben, die Sie zur Vorverarbeitung des Datensatzes benötigen, können Sie dies tun, indem Sie den folgenden Befehl ausführen:

 python preprocess_common_voice.py 
    --data_dir <data_dir> 
    --output_dir <preprocessed_dir>

Ein Modell trainieren

Um ein einfaches Modell zu trainieren, führen Sie den folgenden Befehl aus:

 python run_rnnt.py 
    --mode train 
    --data_dir <path to data directory>

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-01-28
Größe 30.82KB
Kommt von Github

Ähnliche Anwendungen

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

rnnt speech recognition

RNN-Transducer-Spracherkennung

Überblick

Richten Sie Ihre Umgebung ein

Gemeinsame Stimme

Konvertieren Sie alle MP3s in WAVs

Vorverarbeitungsdatensatz

Ein Modell trainieren

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

GitHub the via/releases

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions