SpeechPrompt v2ダウンロードSpeechPrompt v2ソースコードのダウンロード

SpeechPrompt v2

AI ソースコード

1.0.0

ダウンロード

SpeechPrompt-V2

ウェブサイト：https：//ga642381.github.io/speechprompt/
紙リンク：https：//arxiv.org/abs/2303.00733
パイプラインチャート：https：//github.com/ga642381/speechprompt-v2/blob/main/docs/pipeline.png
データセットドキュメント：https：//github.com/ga642381/speechprompt-v2/blob/main/docs/dataset.md

更新リマインダー：

ダウンストリームタスクのサンプリングレート：

ダウンストリームタスクでプロンプトを実行するときは、オーディオのサンプリングレートが16kHzであることを確認してください。
変更：Librosaに16kHzでオーディオをロードするように強制するという最近のコミットがあります。

事前に訓練されたモデルの読み込み：

プロンプトを伴う合理的な結果のために、事前に訓練されたモデルが正しくロードされていることを確認してください。
観察：事前に訓練されたモデルを正しくロードする場合、プロンプトのトレーニングエポックはエポックではなくエポック46で開始する必要があります。これは、事前に訓練されたGSLMがすでに45エポックのためにトレーニングされているためです。

事前に訓練されたモデルとファイル

あなたが持っている4つのファイルがあります：

ヒューバートモデル：スピーチをエンコードします
k-meansモデル：音声表現を個別のユニットに量子化する
dictionary file : defining the unit space for the unit language model.
ユニット言語モデル（ULM） ：障害ユニットで生成言語モデリングの実行

これらのモデルは、プリプロセシングパイプラインを実行するときに自動的にダウンロードできます。

前処理

コンセプト

データプリプロース（Speech2Unit）Piplineには4つのステップがあります。ここでの主なタスクは、スピーチとユニットを実行し、タスクラベルを照合することです

マニフェストを生成します
量子化
reduce_quantized
create_lm_dataset

各ステップに中間データを保存して、関心のあるデータをさらに分析できるようにします。また、各中間データをチェックすることでそれがどのように機能するかをよりよく理解することができます。

ステップ

データセットをダウンロードします
データセット構成（[下流] /config.yaml）を変更する
グローバルconfig （preprocess/config.yaml）を変更する

precorcess/runner.pyを実行します

＃実行できます - すべてのすべてのステージを実行して実行できます：python runner.py  - モデルgslm  -  downstream scr_google_speech_commands-すべてALL

 ＃または、次のコマンドでこれらの4つのステージを順番に実行できます：python runner.py  -  model gslm  -  downstream scr_google_speech_commands- action generate_manifest
python runner.py  - モデルgslm  -  downstream scr_google_speech_commands-アクションQuantize
python runner.py  - モデルgslm  -  downstream scr_google_speech_commands  - アクションdecade_quantized
python runner.py  - モデルgslm  -  downstream scr_google_speech_commands  - アクションcreate_lm_dataset

オプション2

オプション1

verbalizer

コンセプト

Verbalizerには2つのステップがあり、タスクを言語モデルの語彙にマップします。

ステップ

verbalizer.pyを実行します

例：

 python verbalizer.py  -  downstream scr_google_speech_commands-すべての-method freq

Fairseq Preprocess

コンセプト

このステップは、FairSeqトレーニングに使用される言語化データをバイナリファイルに変換します。

ステップ

fairseq_preprocess.pyを実行します

例：

 python fairseq_preprocess.py  -  downstream scr_google_speech_commands -vb_method freq

トレーニング

コンセプト

トレーニング中に、2種類のチェックポイントが保存されます

base_model
プロンプト

ステップ

Train.pyを実行します

例：

 Python Train.py
     -downStream scr_google_speech_commands
     -vb_method freq
     -exp_name scr_google_speech_commands_plen.5
     -PROMPT_LENGTH 5
     -deep_prompt

✒唱。サンプリング

コンセプト

base_modelをロードし、サンプリングを実行するプロンプトを実行します

ステップ

sample.pyを実行します

例：

 python sample.py
     -exp_name scr_google_speech_commands_plen.5
     -downStream scr_google_speech_commands
     -vb_method freq

出力は、file_name、ソースユニット、グラウンドトゥルース（ラベル）、およびモデルの予測を含むJSONファイルです。

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-02-14
サイズ 211.04KB
から Github

SpeechPrompt v2

SpeechPrompt-V2

更新リマインダー：

事前に訓練されたモデルとファイル

前処理

コンセプト

ステップ

verbalizer

コンセプト

ステップ

Fairseq Preprocess

コンセプト

ステップ

トレーニング

コンセプト

ステップ

✒唱。サンプリング

コンセプト

ステップ

RVC v2 UI

TonyShareSQL V2.4 正式バージョン v2.4

TonyShareAccess V2.4 正式バージョン v2.4

BIPO HRMS v2

MetaRace v2 ゲーム

ジンブログ v2.0

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

wp functions

termwind