Unduhan RGX - Unduhan kode Sumber RGX

RGX

Kode Sumber AI

1.0.0

Unduh

RGX : pembuatan tanya jawab untuk dokumen

Repo ini berisi perangkat lunak yang dikembangkan untuk makalah ini,

Pelatihan Mandiri Kooperatif untuk Pemahaman Membaca Mesin, Luo H., Li S.-W., Gao M., Yu S., Glass J., NAACL 2022.

Coba demo langsung kami dengan bagian-bagian berukuran sedang (versi dokumen panjang segera hadir).

Ketergantungan

Kami menjalankan perangkat lunak ini menggunakan paket berikut,

Python 3.8.13
NLTK 3.7
Stanza 1.4.0
PyTorch 1.11.0 + cu113
Transformer 4.19.2
Kumpulan data 2.3.2

Model terlatih tersedia melalui Tautan Google Drive ini. Silakan unduh model dan pindahkan ke bawah direktori model_file/ jika mesin Anda tidak dapat mengunduh model dari hub Huggingface.

model_file/ext_sqv2.pt : Model penjawab pertanyaan besar ELECTRA yang telah dilatih sebelumnya di SQuAD v2.0.
model_file/ques_gen_squad.pt : Model pembuatan pertanyaan besar BART yang telah dilatih sebelumnya di SQuAD v2.0.
model_file/electra-tokenize.pt : Tokenizer electra-besar disediakan oleh Huggingface.
model_file/bart-tokenizer.pt : Tokenizer besar BART disediakan oleh Huggingface.

Mulai Cepat (?).

Hasilkan pasangan pertanyaan-jawaban pada contoh bagian SQuAD yang kami sediakan di data/squad/doc_data_0.json dengan menjalankan perintah berikut,

RGX_doc.py --dataset_name squad --data_split 0 --output_dir tmp/ RGX --version_2_with_negative">

 python RGX _doc.py 
    --dataset_name squad 
    --data_split 0 
    --output_dir tmp/ RGX 
    --version_2_with_negative

Data yang dihasilkan akan disimpan di bawah data_gen/squad , termasuk RGX _0.json dan qa_train_corpus_0.json . Kami menyediakan opsi $DATA_SPLIT untuk pembuatan data terdistribusi, misalnya dengan Slurm. Jika hanya menghasilkan pasangan QA dengan satu proses, cukup gunakan --data_split 0 .

Lokasi Data & File

Semua data disimpan di direktori data/ dan data_gen/ .

data/{$DATASET_NAME}/doc_data_{$DATA_SPLIT}.json : dokumen tanpa label dari kumpulan data target.
data_gen/{$DATASET_NAME}/ RGX _{$DATA_SPLIT}.json : menghasilkan data QA yang selaras dengan setiap dokumen dari kumpulan data terkait.
data_gen/{$DATASET_NAME}/qa_train_corpus_{$DATA_SPLIT}.json : menghasilkan kumpulan pelatihan QA dari kumpulan data yang diberikan. Contoh pelatihan mengikuti format data SQuAD dan diacak secara acak.

Format Data

Format file input, doc_data_{$DATA_SPLIT}.json adalah daftar kamus sebagai

 [
    {"context": INPUT_DOC_TXT__0},
    {"context": INPUT_DOC_TXT__1},
    ...,
    {"context": INPUT_DOC_TXT__N},
]

Format file keluaran, qa_train_corpus_{$DATA_SPLIT}.json , adalah daftar kamus sebagai

 [
    {
        "context": INPUT_DOC_TXT_0,
        "question": GEN_QUESTION_TXT_0,
        "answers": {
            "text": [ ANSWER_TXT ], # only one answer per question
            "answer_start": [ ANSWER_ST_CHAR ]
            # index of the starting character of the answer txt
        }
    },
    {
        ...
    },
]

Format file keluaran, RGX _{$DATA_SPLIT}.json adalah daftar pemetaan dokumen-QA,

 [
    [
        $DOCUMENT_i,
        $ANS2ITEM_LIST_i,
        $GEN_QA_LIST_i
    ],
    ...
]

$DOCUMENT_i memiliki format yang sama dengan file masukan. $ANS2ITEM_LIST_i adalah metadata dari semua jawaban yang dikenali dan pertanyaan yang dihasilkan. Perhatikan bahwa satu jawaban bisa berisi banyak pertanyaan, dan pertanyaannya bisa benar atau tidak. Output akhir dari model ini adalah $GEN_QA_LIST_i , yang merupakan daftar kamus pasangan QA yang dihasilkan berdasarkan dokumen input,

 [
    {
        "question": GEN_QUESTION_TXT_0,
        "answers": {
            "text": [ ANSWER_TXT ],
            "answer_start": [ ANSWER_ST_CHAR ]
        }
    }
]

Pembuatan QA untuk Dokumen Anda

Jalankan perintah berikut, atau buat direktori secara manual di bawah direktori data/ dan data_gen/ ,

 bash new_dataset.sh $NEW_DATASET_NAME

Pindahkan file input yang berisi dokumen target sebagai data/$NEW_DATASET_NAME/doc_data_0.json . Formatnya dijelaskan di bagian sebelumnya.
Jalankan perintah berikut

RGX_doc.py --dataset_name $NEW_DATASET_NAME --data_split 0 --output_dir tmp/ RGX --version_2_with_negative">

 python RGX _doc.py 
    --dataset_name $NEW_DATASET_NAME 
    --data_split 0 
    --output_dir tmp/ RGX 
    --version_2_with_negative

File yang dihasilkan akan disimpan di data_gen/{$NEW_DATASET_NAME}/ .

Menyempurnakan Model QA dengan Data Sintetis

kami menyarankan dua pendekatan untuk penyesuaian QA dengan pasangan QA yang dihasilkan.

Pra-pelatihan sekunder: Menyempurnakan model QA pada korpus sintetis, dan menyempurnakan SQuAD. Model dapat dievaluasi pada domain yang berbeda.
Pencampuran model: Sempurnakan dua model pada korpus dan SQuAD yang dihasilkan, dan ratakan semua bobot kedua model menggunakan skrip mix_mode.py dengan

 python mix_model.py $MIX_RATE $SQUAD_MODEL_PATH $ RGX _MODEL_PATH

Misalnya,

 python mix_model.py 0.5 model_ft_file/ext_sq.pt model_ft_file/ext_ RGX .pt

Model keluaran akan disimpan sebagai model_ft_file/ext_mixed.pt .

Kontak dan Kutipan

Silakan hubungi penulis pertama, Hongyin Luo (hyluo di mit dot edu) jika ada pertanyaan. Jika sistem kami diterapkan dalam pekerjaan Anda, harap mengutip makalah kami

 @article{luo2021cooperative,
  title={Cooperative self-training machine reading comprehension},
  author={Luo, Hongyin and Li, Shang-Wen and Mingye Gao, and Yu, Seunghak and Glass, James},
  journal={arXiv preprint arXiv:2103.07449},
  year={2021}
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2024-12-30
ukuran 50MB
Berasal dari Github

Aplikasi Terkait

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
node telegram bot api

Kode Sumber AI

v0.50.0
typebot.io

Kode Sumber AI

v3.1.2
python wechaty getting started

Kode Sumber AI

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua