SpeechPrompt v2 다운로드 - SpeechPrompt v2 소스 코드 다운로드

SpeechPrompt v2

AI 소스 코드

1.0.0

다운로드

SpeechPrompt-V2

웹 사이트 : https://ga642381.github.io/speechprompt/
종이 링크 : https://arxiv.org/abs/2303.00733
파이프 라인 차트 : https://github.com/ga642381/speechprompt-v2/blob/main/docs/pipeline.png
데이터 세트 문서 : https://github.com/ga642381/speechprompt-v2/blob/main/docs/dataset.md

알림 업데이트 :

다운 스트림 작업의 샘플링 속도 :

다운 스트림 작업에 대한 프롬프트를 수행 할 때 오디오의 샘플링 속도가 16kHz인지 확인하십시오.
수정 : 최근 Librosa가 16kHz로 오디오를로드하도록 강요하겠다는 약속이 있습니다.

미리 훈련 된 모델 로딩 :

프롬프트와 함께 합리적인 결과를 얻으려면 미리 훈련 된 모델이 올바르게로드되어 있는지 확인하십시오.
관찰 : 미리 훈련 된 모델을 올바르게로드 할 때, 프롬프트에 대한 훈련 에포크는 Epoch 1이 아닌 Epoch 46에서 시작해야합니다. 이것은 미리 훈련 된 GSLM이 이미 45 개의 에포크에 대해 훈련 되었기 때문입니다.

미리 훈련 된 모델 및 파일

가지고있는 4 개의 파일이 있습니다.

허버트 모델 : 인코딩 연설
K- 평균 모델 : 음성 표현을 개별 단위로 정량화
사전 파일 : 단위 언어 모델의 단위 공간 정의.
ULM (Unit Language Model) : 불명예 단위에서 생성 언어 모델링 수행

전처리 파이프 라인을 실행할 때 이러한 모델을 자동으로 다운로드 할 수 있습니다.

전처리

개념

Data Preprocess (Speech2Unit) Pipline에는 4 단계가 있습니다. 여기서 주요 작업은 음성 단위를 수행하고 작업 라벨을 수집하는 것입니다.

매니페스트를 생성하십시오
정량화
REDAY_QUANTID
create_lm_dataset

우리는 각 단계에서 중간 데이터를 저장하여 관심있는 데이터에 대한 추가 분석을 수행 할 수 있습니다. 또한 각 중간 데이터를 확인하여 작동 방식을 더 잘 이해할 수 있습니다.

단계

데이터 세트를 다운로드하십시오
데이터 세트 구성 ([다운 스트림] /config.yaml) 수정
글로벌 구성 (preprocess/config.yaml)을 수정하십시오.

전염병/러너를 실행하십시오

 # 당신은 실행할 수 있습니다 -모두 4 단계를 모두 통과 할 수 있도록 모든 것을 실행할 수 있습니다 : python runner.py -모델 gslm -downstream scr_google_speech_commands -Accions Alcact

 # 또는 다음 명령 으로이 4 단계를 순차적으로 실행할 수 있습니다.
python runner.py -모드 gslm -downstream scr_google_speech_commands-Action Quantize
python runner.py -모드 gslm -downstream scr_google_speech_commands -Action retud_quantized
python runner.py -모드 gslm -downstream scr_google_speech_commands -action create_lm_dataset

옵션 2

옵션 1

언어 제

개념

Verbalizer에는 2 단계가 있으며 작업 라벨을 언어 모델의 어휘에 매핑합니다.

단계

Verbalizer.py를 실행하십시오

예:

 python verbalizer.py -downstream scr_google_speech_commands -Accip All -Method freq

FairseQ Preprocess

개념

이 단계는 구두화 된 데이터를 FairSeQ 교육에 사용될 바이너리 파일로 변환합니다.

단계

fairseq_preprocess.py를 실행하십시오

예:

 python fairseq_preprocess.py -downstream scr_google_speech_commands --vb_method freq

훈련

개념

훈련 중에 2 가지 종류의 체크 포인트가 저장됩니다

base_model
즉각적인

단계

Run Train.py

예:

 Python Train.py
     -downstream scr_google_speech_commands
     -VB_METHOD FREQ
     -exp_name scr_google_speech_commands_plen.5
     -prompt_length 5
     -deep_prompt

✒️ 샘플링

개념

Base_Model을로드하고 샘플링을 수행하도록 프롬프트합니다

단계

샘플을 실행하십시오

예:

 Python Sample.py
     -exp_name scr_google_speech_commands_plen.5
     -downstream scr_google_speech_commands
     -VB_METHOD FREQ

출력은 file_name, 소스 단위, 접지 진실 (레이블) 및 모델 예측을 포함하는 JSON 파일입니다.

확장하다

추가 정보

버전 1.0.0
유형 AI 소스 코드
업데이트 시간 2025-02-14
크기 211.04KB
출처 Github

SpeechPrompt v2

SpeechPrompt-V2

알림 업데이트 :

미리 훈련 된 모델 및 파일

전처리

개념

단계

언어 제

개념

단계

FairseQ Preprocess

개념

단계

훈련

개념

단계

✒️ 샘플링

개념

단계

RVC v2 UI

TonyShareSQL V2.4 공식 버전 v2.4

TonyShareAccess V2.4 공식 버전 v2.4

BIPO HRMS v2

MetaRace v2 게임

진블로그 v2.0

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

wp functions

termwind