웹 사이트 : https://ga642381.github.io/speechprompt/
종이 링크 : https://arxiv.org/abs/2303.00733
파이프 라인 차트 : https://github.com/ga642381/speechprompt-v2/blob/main/docs/pipeline.png
데이터 세트 문서 : https://github.com/ga642381/speechprompt-v2/blob/main/docs/dataset.md
다운 스트림 작업의 샘플링 속도 :
다운 스트림 작업에 대한 프롬프트를 수행 할 때 오디오의 샘플링 속도가 16kHz인지 확인하십시오.
수정 : 최근 Librosa가 16kHz로 오디오를로드하도록 강요하겠다는 약속이 있습니다.
미리 훈련 된 모델 로딩 :
프롬프트와 함께 합리적인 결과를 얻으려면 미리 훈련 된 모델이 올바르게로드되어 있는지 확인하십시오.
관찰 : 미리 훈련 된 모델을 올바르게로드 할 때, 프롬프트에 대한 훈련 에포크는 Epoch 1이 아닌 Epoch 46에서 시작해야합니다. 이것은 미리 훈련 된 GSLM이 이미 45 개의 에포크에 대해 훈련 되었기 때문입니다.
가지고있는 4 개의 파일이 있습니다.
허버트 모델 : 인코딩 연설
K- 평균 모델 : 음성 표현을 개별 단위로 정량화
사전 파일 : 단위 언어 모델의 단위 공간 정의.
ULM (Unit Language Model) : 불명예 단위에서 생성 언어 모델링 수행
전처리 파이프 라인을 실행할 때 이러한 모델을 자동으로 다운로드 할 수 있습니다.
Data Preprocess (Speech2Unit) Pipline에는 4 단계가 있습니다. 여기서 주요 작업은 음성 단위를 수행하고 작업 라벨을 수집하는 것입니다.
매니페스트를 생성하십시오
정량화
REDAY_QUANTID
create_lm_dataset
우리는 각 단계에서 중간 데이터를 저장하여 관심있는 데이터에 대한 추가 분석을 수행 할 수 있습니다. 또한 각 중간 데이터를 확인하여 작동 방식을 더 잘 이해할 수 있습니다.
데이터 세트를 다운로드하십시오
데이터 세트 구성 ([다운 스트림] /config.yaml) 수정
글로벌 구성 (preprocess/config.yaml)을 수정하십시오.
전염병/러너를 실행하십시오
# 당신은 실행할 수 있습니다 -모두 4 단계를 모두 통과 할 수 있도록 모든 것을 실행할 수 있습니다 : python runner.py -모델 gslm -downstream scr_google_speech_commands -Accions Alcact
# 또는 다음 명령 으로이 4 단계를 순차적으로 실행할 수 있습니다. python runner.py -모드 gslm -downstream scr_google_speech_commands-Action Quantize python runner.py -모드 gslm -downstream scr_google_speech_commands -Action retud_quantized python runner.py -모드 gslm -downstream scr_google_speech_commands -action create_lm_dataset
옵션 2
옵션 1
Verbalizer에는 2 단계가 있으며 작업 라벨을 언어 모델의 어휘에 매핑합니다.
Verbalizer.py를 실행하십시오
예:
python verbalizer.py -downstream scr_google_speech_commands -Accip All -Method freq
이 단계는 구두화 된 데이터를 FairSeQ 교육에 사용될 바이너리 파일로 변환합니다.
fairseq_preprocess.py를 실행하십시오
예:
python fairseq_preprocess.py -downstream scr_google_speech_commands --vb_method freq
훈련 중에 2 가지 종류의 체크 포인트가 저장됩니다
base_model
즉각적인
Run Train.py
예:
Python Train.py -downstream scr_google_speech_commands -VB_METHOD FREQ -exp_name scr_google_speech_commands_plen.5 -prompt_length 5 -deep_prompt
Base_Model을로드하고 샘플링을 수행하도록 프롬프트합니다
샘플을 실행하십시오
예:
Python Sample.py -exp_name scr_google_speech_commands_plen.5 -downstream scr_google_speech_commands -VB_METHOD FREQ
출력은 file_name, 소스 단위, 접지 진실 (레이블) 및 모델 예측을 포함하는 JSON 파일입니다.