rnnt speech recognitionダウンロード - rnnt speech recognitionソースコードダウンロード

rnnt speech recognition

AI ソースコード

1.0.0

ダウンロード

RNN トランスデューサー音声認識

Tensorflow 2.0 の RNN-Transducer を使用したエンドツーエンドの音声認識

概要

この音声認識モデルは、Google のモバイルデバイス向けストリーミングエンドツーエンド音声認識の研究論文に基づいており、Tensorflow 2.0 を使用して Python 3 で実装されています。

環境をセットアップする

環境をセットアップするには、次のコマンドを実行します。

 git clone --recurse https://github.com/noahchalifour/rnnt-speech-recognition.git
cd rnnt-speech-recognition
pip install tensorflow==2.2.0 # or tensorflow-gpu==2.2.0 for GPU support
pip install -r requirements.txt
./scripts/build_rnnt.sh # to setup the rnnt loss

一般的な声

ここで Common Voice データセットを見つけてダウンロードできます。

すべての MP3 を WAV に変換します

Common Voice データセットでモデルをトレーニングする前に、まずすべてのオーディオ mp3 ファイルタイプを wav に変換する必要があります。これを行うには、次のコマンドを実行します。

注: mp3 を wav に変換するために ffmpeg が使用されるため、コンピューターにffmpegがインストールされていることを確認してください。

 ./scripts/common_voice_convert.sh <data_dir> <# of threads>
python scripts/remove_missing_samples.py 
    --data_dir <data_dir> 
    --replace_old

データセットの前処理

すべての mp3 を wav に変換した後、データセットを前処理する必要があります。これを行うには、次のコマンドを実行します。

 python preprocess_common_voice.py 
    --data_dir <data_dir> 
    --output_dir <preprocessed_dir>

モデルのトレーニング

単純なモデルをトレーニングするには、次のコマンドを実行します。

 python run_rnnt.py 
    --mode train 
    --data_dir <path to data directory>

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-01-28
サイズ 30.82KB
から Github

rnnt speech recognition

RNN トランスデューサー音声認識

概要

環境をセットアップする

一般的な声

すべての MP3 を WAV に変換します

データセットの前処理

モデルのトレーニング

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

GitHub the via/releases

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions