RGXダウンロード - RGXソースコードのダウンロード

RGX

AI ソースコード

1.0.0

ダウンロード

RGX : ドキュメントの質問と回答の生成

このリポジトリには、論文用に開発されたソフトウェアが含まれています。

機械読解のための共同自己トレーニング、Luo H.、Li S.-W.、Gao M.、Yu S.、Glass J.、NAACL 2022。

中程度の長さのパッセージを使用したライブデモをお試しください (長いドキュメントバージョンは近日公開予定です)。

依存

このソフトウェアは次のパッケージを使用して実行します。

Python 3.8.13
NLTK 3.7
スタンザ 1.4.0
PyTorch 1.11.0 + cu113
トランスフォーマー 4.19.2
データセット 2.3.2

事前トレーニングされたモデルは、この Google ドライブリンクから入手できます。マシンが Huggingface ハブからモデルをダウンロードできない場合は、モデルをダウンロードして、 model_file/ディレクトリの下に移動してください。

model_file/ext_sqv2.pt : SQuAD v2.0 上の事前トレーニング済み ELECTRA 大規模質問応答モデル。
model_file/ques_gen_squad.pt : SQuAD v2.0 での事前トレーニング済みの BART 大質問生成モデル。
model_file/electra-tokenize.pt : Huggingface によって提供される Electra-large トークナイザー。
model_file/bart-tokenizer.pt : Huggingface によって提供される BART ラージトークナイザー。

クイック (?) スタート

次のコマンドを実行して、 data/squad/doc_data_0.jsonで提供されるサンプル SQuAD パッセージに関する質問と回答のペアを生成します。

RGX_doc.py --dataset_name squad --data_split 0 --output_dir tmp/ RGX --version_2_with_negative">

 python RGX _doc.py 
    --dataset_name squad 
    --data_split 0 
    --output_dir tmp/ RGX 
    --version_2_with_negative

生成されたデータは、 RGX _0.jsonおよびqa_train_corpus_0.jsonを含む、 data_gen/squadの下に保存されます。 Slurm などで分散データを生成するための$DATA_SPLITオプションを提供します。 1 つのプロセスで QA ペアのみを生成する場合は、単に--data_split 0を使用します。

データとファイルの場所

すべてのデータはdata/ディレクトリとdata_gen/ディレクトリに保存されます。

data/{$DATASET_NAME}/doc_data_{$DATA_SPLIT}.json : ターゲットデータセットのラベルのないドキュメント。
data_gen/{$DATASET_NAME}/ RGX _{$DATA_SPLIT}.json : 対応するデータセットから各ドキュメントに合わせて生成された QA データ。
data_gen/{$DATASET_NAME}/qa_train_corpus_{$DATA_SPLIT}.json : 指定されたデータセットの生成された QA トレーニングセット。トレーニング例は SQuAD データ形式に従い、ランダムにシャッフルされます。

データ形式

入力ファイルの形式doc_data_{$DATA_SPLIT}.jsonは、次のような辞書のリストです。

 [
    {"context": INPUT_DOC_TXT__0},
    {"context": INPUT_DOC_TXT__1},
    ...,
    {"context": INPUT_DOC_TXT__N},
]

出力ファイルの形式qa_train_corpus_{$DATA_SPLIT}.json 、次のような辞書のリストです。

 [
    {
        "context": INPUT_DOC_TXT_0,
        "question": GEN_QUESTION_TXT_0,
        "answers": {
            "text": [ ANSWER_TXT ], # only one answer per question
            "answer_start": [ ANSWER_ST_CHAR ]
            # index of the starting character of the answer txt
        }
    },
    {
        ...
    },
]

出力ファイルの形式RGX _{$DATA_SPLIT}.jsonは、ドキュメントと QA のマッピングのリストです。

 [
    [
        $DOCUMENT_i,
        $ANS2ITEM_LIST_i,
        $GEN_QA_LIST_i
    ],
    ...
]

$DOCUMENT_i入力ファイルと同じ形式です。 $ANS2ITEM_LIST_iは、認識されたすべての回答と生成された質問のメタデータです。 1 つの回答に複数の質問が含まれる場合があり、質問は正解か不正解になる可能性があることに注意してください。モデルの最終出力は$GEN_QA_LIST_iで、これは入力ドキュメントに基づいて生成された QA ペアの辞書のリストです。

 [
    {
        "question": GEN_QUESTION_TXT_0,
        "answers": {
            "text": [ ANSWER_TXT ],
            "answer_start": [ ANSWER_ST_CHAR ]
        }
    }
]

ドキュメントの QA 生成

次のコマンドを実行するか、 data/およびdata_gen/ディレクトリの下に手動でディレクトリを作成します。

 bash new_dataset.sh $NEW_DATASET_NAME

ターゲットドキュメントを含む入力ファイルをdata/$NEW_DATASET_NAME/doc_data_0.jsonとして移動します。形式については前のセクションで説明しています。
次のコマンドを実行します

RGX_doc.py --dataset_name $NEW_DATASET_NAME --data_split 0 --output_dir tmp/ RGX --version_2_with_negative">

 python RGX _doc.py 
    --dataset_name $NEW_DATASET_NAME 
    --data_split 0 
    --output_dir tmp/ RGX 
    --version_2_with_negative

生成されたファイルはdata_gen/{$NEW_DATASET_NAME}/に保存されます。

合成データを使用した QA モデルの微調整

生成された QA ペアを使用して QA を微調整するための 2 つのアプローチを提案します。

二次事前トレーニング: 合成コーパスで QA モデルを微調整し、SQuAD で微調整します。モデルはさまざまなドメインで評価できます。
モデル混合: 生成されたコーパスと SQuAD で 2 つのモデルを微調整し、 mix_mode.pyスクリプトを使用して 2 つのモデルのすべての重みを平均します。

 python mix_model.py $MIX_RATE $SQUAD_MODEL_PATH $ RGX _MODEL_PATH

例えば、

 python mix_model.py 0.5 model_ft_file/ext_sq.pt model_ft_file/ext_ RGX .pt

出力モデルはmodel_ft_file/ext_mixed.ptとして保存されます。

連絡先と引用

ご質問がある場合は、筆頭著者のHongyin Luo (hyluo at mit dot edu) までお問い合わせください。私たちのシステムがあなたの仕事に適用されている場合は、私たちの論文を引用してください

 @article{luo2021cooperative,
  title={Cooperative self-training machine reading comprehension},
  author={Luo, Hongyin and Li, Shang-Wen and Mingye Gao, and Yu, Seunghak and Glass, James},
  journal={arXiv preprint arXiv:2103.07449},
  year={2021}
}

拡大する

追加情報