ウェブサイト:https://ga642381.github.io/speechprompt/
紙リンク:https://arxiv.org/abs/2303.00733
パイプラインチャート:https://github.com/ga642381/speechprompt-v2/blob/main/docs/pipeline.png
データセットドキュメント:https://github.com/ga642381/speechprompt-v2/blob/main/docs/dataset.md
ダウンストリームタスクのサンプリングレート:
ダウンストリームタスクでプロンプトを実行するときは、オーディオのサンプリングレートが16kHzであることを確認してください。
変更:Librosaに16kHzでオーディオをロードするように強制するという最近のコミットがあります。
事前に訓練されたモデルの読み込み:
プロンプトを伴う合理的な結果のために、事前に訓練されたモデルが正しくロードされていることを確認してください。
観察:事前に訓練されたモデルを正しくロードする場合、プロンプトのトレーニングエポックはエポックではなくエポック46で開始する必要があります。これは、事前に訓練されたGSLMがすでに45エポックのためにトレーニングされているためです。
あなたが持っている4つのファイルがあります:
ヒューバートモデル:スピーチをエンコードします
k-meansモデル:音声表現を個別のユニットに量子化する
dictionary file : defining the unit space for the unit language model.
ユニット言語モデル(ULM) :障害ユニットで生成言語モデリングの実行
これらのモデルは、プリプロセシングパイプラインを実行するときに自動的にダウンロードできます。
データプリプロース(Speech2Unit)Piplineには4つのステップがあります。ここでの主なタスクは、スピーチとユニットを実行し、タスクラベルを照合することです
マニフェストを生成します
量子化
reduce_quantized
create_lm_dataset
各ステップに中間データを保存して、関心のあるデータをさらに分析できるようにします。また、各中間データをチェックすることでそれがどのように機能するかをよりよく理解することができます。
データセットをダウンロードします
データセット構成([下流] /config.yaml)を変更する
グローバルconfig (preprocess/config.yaml)を変更する
precorcess/runner.pyを実行します
#実行できます - すべてのすべてのステージを実行して実行できます:python runner.py - モデルgslm - downstream scr_google_speech_commands-すべてALL
#または、次のコマンドでこれらの4つのステージを順番に実行できます:python runner.py - model gslm - downstream scr_google_speech_commands- action generate_manifest python runner.py - モデルgslm - downstream scr_google_speech_commands-アクションQuantize python runner.py - モデルgslm - downstream scr_google_speech_commands - アクションdecade_quantized python runner.py - モデルgslm - downstream scr_google_speech_commands - アクションcreate_lm_dataset
オプション2
オプション1
Verbalizerには2つのステップがあり、タスクを言語モデルの語彙にマップします。
verbalizer.pyを実行します
例:
python verbalizer.py - downstream scr_google_speech_commands-すべての-method freq
このステップは、FairSeqトレーニングに使用される言語化データをバイナリファイルに変換します。
fairseq_preprocess.pyを実行します
例:
python fairseq_preprocess.py - downstream scr_google_speech_commands -vb_method freq
トレーニング中に、2種類のチェックポイントが保存されます
base_model
プロンプト
Train.pyを実行します
例:
Python Train.py -downStream scr_google_speech_commands -vb_method freq -exp_name scr_google_speech_commands_plen.5 -PROMPT_LENGTH 5 -deep_prompt
base_modelをロードし、サンプリングを実行するプロンプトを実行します
sample.pyを実行します
例:
python sample.py -exp_name scr_google_speech_commands_plen.5 -downStream scr_google_speech_commands -vb_method freq
出力は、file_name、ソースユニット、グラウンドトゥルース(ラベル)、およびモデルの予測を含むJSONファイルです。