rnnt speech recognition 다운로드 - rnnt speech recognition 소스 코드 다운로드

rnnt speech recognition

AI 소스 코드

1.0.0

다운로드

RNN-변환기 음성 인식

Tensorflow 2.0에서 RNN-Transducer를 사용한 엔드투엔드 음성 인식

개요

이 음성 인식 모델은 Google의 모바일 장치용 스트리밍 엔드투엔드 음성 인식 연구 논문을 기반으로 하며 Tensorflow 2.0을 사용하여 Python 3에서 구현됩니다.

환경 설정

환경을 설정하려면 다음 명령을 실행하십시오.

 git clone --recurse https://github.com/noahchalifour/rnnt-speech-recognition.git
cd rnnt-speech-recognition
pip install tensorflow==2.2.0 # or tensorflow-gpu==2.2.0 for GPU support
pip install -r requirements.txt
./scripts/build_rnnt.sh # to setup the rnnt loss

공통 음성

여기에서 Common Voice 데이터세트를 찾아 다운로드할 수 있습니다.

모든 MP3를 WAV로 변환

Common Voice 데이터 세트에서 모델을 교육하려면 먼저 모든 오디오 mp3 파일 형식을 wav로 변환해야 합니다. 다음 명령을 실행하여 수행하십시오.

참고: mp3를 wav로 변환하는 데 사용되는 ffmpeg 컴퓨터에 설치되어 있는지 확인하십시오.

 ./scripts/common_voice_convert.sh <data_dir> <# of threads>
python scripts/remove_missing_samples.py 
    --data_dir <data_dir> 
    --replace_old

데이터 세트 전처리

모든 mp3를 wav로 변환한 후 데이터 세트를 전처리해야 하며 다음 명령을 실행하여 이를 수행할 수 있습니다.

 python preprocess_common_voice.py 
    --data_dir <data_dir> 
    --output_dir <preprocessed_dir>

모델 훈련

간단한 모델을 학습하려면 다음 명령어를 실행하세요.

 python run_rnnt.py 
    --mode train 
    --data_dir <path to data directory>

확장하다

추가 정보

버전 1.0.0
유형 AI 소스 코드
업데이트 시간 2025-01-28
크기 30.82KB
출처 Github

rnnt speech recognition

RNN-변환기 음성 인식

개요

환경 설정

공통 음성

모든 MP3를 WAV로 변환

데이터 세트 전처리

모델 훈련

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

GitHub the via/releases

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions