RGX下載 - RGX原始碼下載

RGX

Ai源碼

1.0.0

下載

RGX ：文件的問答生成

該存儲庫包含為本文開發的軟體，

機器閱讀理解的協作自我訓練，羅華，李世文，高明，於書，Glass J.，NAACL 2022。

嘗試我們的帶有中等長度段落的現場演示（長文檔版本即將推出）。

依賴性

我們使用以下軟體包來運行該軟體，

Python 3.8.13
NLTK 3.7
節1.4.0
PyTorch 1.11.0 + cu113
變形金剛4.19.2
資料集2.3.2

預訓練模型可透過此 Google Drive 連結取得。如果您的電腦無法從 Huggingface hub 下載模型，請下載模型並將其移至model_file/目錄下。

model_file/ext_sqv2.pt ：在 SQuAD v2.0 上預先訓練的 ELECTRA-large 問答模型。
model_file/ques_gen_squad.pt ：在 SQuAD v2.0 上預先訓練的 BART 大型問題產生模型。
model_file/electra-tokenize.pt ：Huggingface 提供的 Electra-large 分詞器。
model_file/bart-tokenizer.pt ：Huggingface 提供的 BART-large 分詞器。

快速（？）開始

透過執行以下命令，在我們在data/squad/doc_data_0.json提供的範例 SQuAD 段落上產生問答對，

RGX_doc.py --dataset_name squad --data_split 0 --output_dir tmp/ RGX --version_2_with_negative">

 python RGX _doc.py 
    --dataset_name squad 
    --data_split 0 
    --output_dir tmp/ RGX 
    --version_2_with_negative

產生的資料將儲存在data_gen/squad下，包括RGX _0.json和qa_train_corpus_0.json 。我們為分散式資料產生提供$DATA_SPLIT選項，例如使用 Slurm。如果只使用一個行程產生 QA 對，只需使用--data_split 0 。

資料和檔案位置

所有資料都儲存在data/和data_gen/目錄中。

data/{$DATASET_NAME}/doc_data_{$DATA_SPLIT}.json ：目標資料集的未標記文件。
data_gen/{$DATASET_NAME}/ RGX _{$DATA_SPLIT}.json ：產生的 QA 資料與對應資料集中的每個文件對齊。
data_gen/{$DATASET_NAME}/qa_train_corpus_{$DATA_SPLIT}.json ：給定資料集產生的 QA 訓練集。訓練範例遵循 SQuAD 資料格式並隨機打亂。

資料格式

輸入檔doc_data_{$DATA_SPLIT}.json的格式是字典列表，如下所示

 [
    {"context": INPUT_DOC_TXT__0},
    {"context": INPUT_DOC_TXT__1},
    ...,
    {"context": INPUT_DOC_TXT__N},
]

輸出檔案qa_train_corpus_{$DATA_SPLIT}.json的格式是字典列表，如下所示

 [
    {
        "context": INPUT_DOC_TXT_0,
        "question": GEN_QUESTION_TXT_0,
        "answers": {
            "text": [ ANSWER_TXT ], # only one answer per question
            "answer_start": [ ANSWER_ST_CHAR ]
            # index of the starting character of the answer txt
        }
    },
    {
        ...
    },
]

輸出文件的格式RGX _{$DATA_SPLIT}.json是文檔-QA 映射的列表，

 [
    [
        $DOCUMENT_i,
        $ANS2ITEM_LIST_i,
        $GEN_QA_LIST_i
    ],
    ...
]

$DOCUMENT_i與輸入檔案具有相同的格式。 $ANS2ITEM_LIST_i是所有已識別答案和產生問題的元資料。請注意，一個答案可以有多個問題，問題可以是正確的，也可以是錯誤的。模型的最終輸出是$GEN_QA_LIST_i ，它是基於輸入文件產生的 QA 對的字典列表，

 [
    {
        "question": GEN_QUESTION_TXT_0,
        "answers": {
            "text": [ ANSWER_TXT ],
            "answer_start": [ ANSWER_ST_CHAR ]
        }
    }
]

為您的文件產生品質檢查

執行以下命令，或手動在data/和data_gen/目錄下建立目錄，

 bash new_dataset.sh $NEW_DATASET_NAME

將包含目標文件的輸入檔移動為data/$NEW_DATASET_NAME/doc_data_0.json 。該格式已在上一節中描述。
運行以下命令

RGX_doc.py --dataset_name $NEW_DATASET_NAME --data_split 0 --output_dir tmp/ RGX --version_2_with_negative">

 python RGX _doc.py 
    --dataset_name $NEW_DATASET_NAME 
    --data_split 0 
    --output_dir tmp/ RGX 
    --version_2_with_negative

產生的檔案將儲存在data_gen/{$NEW_DATASET_NAME}/ 。

使用合成資料微調 QA 模型

我們建議使用兩種方法對產生的 QA 對進行 QA 微調。

二次預訓練：在合成語料上微調QA模型，在SQuAD上微調。該模型可以在不同的領域進行評估。
模型混合：在產生的語料庫和 SQuAD 上微調兩個模型，並使用mix_mode.py腳本對兩個模型的所有權重進行平均

 python mix_model.py $MIX_RATE $SQUAD_MODEL_PATH $ RGX _MODEL_PATH

例如，

 python mix_model.py 0.5 model_ft_file/ext_sq.pt model_ft_file/ext_ RGX .pt

輸出模型將儲存為model_ft_file/ext_mixed.pt 。

聯絡方式和引用

如有任何問題，請聯絡第一作者羅宏銀（hyluo at mit dot edu）。如果我們的系統應用在您的工作中，請引用我們的論文

 @article{luo2021cooperative,
  title={Cooperative self-training machine reading comprehension},
  author={Luo, Hongyin and Li, Shang-Wen and Mingye Gao, and Yu, Seunghak and Glass, James},
  journal={arXiv preprint arXiv:2103.07449},
  year={2021}
}

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2024-12-30
大小 50MB
來自於 Github

相關應用

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
node telegram bot api

Ai源碼

v0.50.0
typebot.io

Ai源碼

v3.1.2
python wechaty getting started

Ai源碼

1.0.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部