ดาวน์โหลด RGX - ดาวน์โหลดซอร์สโค้ด RGX

RGX

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

RGX : การสร้างคำถาม-คำตอบสำหรับเอกสาร

Repo นี้มีซอฟต์แวร์ที่พัฒนาขึ้นสำหรับกระดาษ

การฝึกอบรมตนเองแบบร่วมมือเพื่อความเข้าใจในการอ่านเครื่อง, Luo H., Li S.-W., Gao M., Yu S., Glass J., NAACL 2022

ลองสาธิตสดของเราด้วยข้อความที่มีความยาวปานกลาง (เวอร์ชันเอกสารขนาดยาวจะมาเร็วๆ นี้)

การพึ่งพาอาศัยกัน

เรารันซอฟต์แวร์นี้โดยใช้แพ็คเกจต่อไปนี้

หลาม 3.8.13
เอ็นแอลทีเค 3.7
สแตนซา 1.4.0
PyTorch 1.11.0 + cu113
หม้อแปลงไฟฟ้า 4.19.2
ชุดข้อมูล 2.3.2

โมเดลที่ฝึกไว้ล่วงหน้ามีจำหน่ายแล้วผ่านลิงก์ Google Drive นี้ โปรดดาวน์โหลดโมเดลและย้ายไปไว้ใต้ไดเร็กทอรี model_file/ หากเครื่องของคุณไม่สามารถดาวน์โหลดโมเดลจากฮับ Huggingface

model_file/ext_sqv2.pt : โมเดลการตอบคำถามขนาดใหญ่ของ ELECTRA ที่ได้รับการฝึกอบรมล่วงหน้าบน SQuAD v2.0
model_file/ques_gen_squad.pt : โมเดลการสร้างคำถามขนาดใหญ่ BART ที่ได้รับการฝึกอบรมล่วงหน้าบน SQuAD v2.0
model_file/electra-tokenize.pt : Electra-large tokenizer จัดทำโดย Huggingface
model_file/bart-tokenizer.pt : BART-โทเค็นขนาดใหญ่ที่จัดทำโดย Huggingface

เริ่มต้นอย่างรวดเร็ว (?)

สร้างคู่คำถาม-คำตอบบนตัวอย่างข้อความ SQuAD ที่เรามีให้ที่ data/squad/doc_data_0.json โดยการรันคำสั่งต่อไปนี้

RGX_doc.py --dataset_name squad --data_split 0 --output_dir tmp/ RGX --version_2_with_negative">

 python RGX _doc.py 
    --dataset_name squad 
    --data_split 0 
    --output_dir tmp/ RGX 
    --version_2_with_negative

ข้อมูลที่สร้างขึ้นจะถูกเก็บไว้ภายใต้ data_gen/squad รวมถึง RGX _0.json และ qa_train_corpus_0.json เรามีตัวเลือก $DATA_SPLIT สำหรับการสร้างข้อมูลแบบกระจาย เช่น ด้วย Slurm หากเพียงสร้างคู่ QA ด้วยกระบวนการเดียว ให้ใช้ --data_split 0

ข้อมูลและตำแหน่งไฟล์

ข้อมูลทั้งหมดจะถูกเก็บไว้ที่ไดเร็กทอรี data/ และ data_gen/

data/{$DATASET_NAME}/doc_data_{$DATA_SPLIT}.json : เอกสารที่ไม่มีป้ายกำกับของชุดข้อมูลเป้าหมาย
data_gen/{$DATASET_NAME}/ RGX _{$DATA_SPLIT}.json : ข้อมูล QA ที่สร้างขึ้นซึ่งสอดคล้องกับแต่ละเอกสารจากชุดข้อมูลที่เกี่ยวข้อง
data_gen/{$DATASET_NAME}/qa_train_corpus_{$DATA_SPLIT}.json : สร้างชุดการฝึกอบรม QA ของชุดข้อมูลที่กำหนด ตัวอย่างการฝึกอบรมเป็นไปตามรูปแบบข้อมูล SQuAD และจะมีการสับแบบสุ่ม

รูปแบบข้อมูล

รูปแบบของไฟล์อินพุต doc_data_{$DATA_SPLIT}.json เป็นรายการพจนานุกรมดังนี้

 [
    {"context": INPUT_DOC_TXT__0},
    {"context": INPUT_DOC_TXT__1},
    ...,
    {"context": INPUT_DOC_TXT__N},
]

รูปแบบของไฟล์เอาต์พุต qa_train_corpus_{$DATA_SPLIT}.json เป็นรายการพจนานุกรมดังนี้

 [
    {
        "context": INPUT_DOC_TXT_0,
        "question": GEN_QUESTION_TXT_0,
        "answers": {
            "text": [ ANSWER_TXT ], # only one answer per question
            "answer_start": [ ANSWER_ST_CHAR ]
            # index of the starting character of the answer txt
        }
    },
    {
        ...
    },
]

รูปแบบของไฟล์เอาต์พุต RGX _{$DATA_SPLIT}.json คือรายการการแมปเอกสาร-QA

 [
    [
        $DOCUMENT_i,
        $ANS2ITEM_LIST_i,
        $GEN_QA_LIST_i
    ],
    ...
]

$DOCUMENT_i มีรูปแบบเดียวกับไฟล์อินพุต $ANS2ITEM_LIST_i คือข้อมูลเมตาของคำตอบที่ได้รับการยอมรับและคำถามที่สร้างขึ้นทั้งหมด โปรดทราบว่าคำตอบเดียวสามารถมีคำถามได้หลายข้อ และคำถามอาจถูกหรือไม่ก็ได้ ผลลัพธ์สุดท้ายของโมเดลคือ $GEN_QA_LIST_i ซึ่งเป็นรายการพจนานุกรมของคู่ QA ที่สร้างขึ้นตามเอกสารอินพุต

 [
    {
        "question": GEN_QUESTION_TXT_0,
        "answers": {
            "text": [ ANSWER_TXT ],
            "answer_start": [ ANSWER_ST_CHAR ]
        }
    }
]

การสร้าง QA สำหรับเอกสารของคุณ

รันคำสั่งต่อไปนี้ หรือสร้างไดเร็กทอรีด้วยตนเองภายใต้ไดเร็กทอรี data/ และ data_gen/

 bash new_dataset.sh $NEW_DATASET_NAME

ย้ายไฟล์อินพุตที่มีเอกสารเป้าหมายเป็น data/$NEW_DATASET_NAME/doc_data_0.json รูปแบบอธิบายไว้ในส่วนก่อนหน้า
รันคำสั่งต่อไปนี้

RGX_doc.py --dataset_name $NEW_DATASET_NAME --data_split 0 --output_dir tmp/ RGX --version_2_with_negative">

 python RGX _doc.py 
    --dataset_name $NEW_DATASET_NAME 
    --data_split 0 
    --output_dir tmp/ RGX 
    --version_2_with_negative

ไฟล์ที่สร้างขึ้นจะถูกเก็บไว้ที่ data_gen/{$NEW_DATASET_NAME}/

การปรับแต่งโมเดล QA อย่างละเอียดด้วยข้อมูลสังเคราะห์

เราขอแนะนำสองวิธีสำหรับการปรับแต่ง QA อย่างละเอียดด้วยคู่ QA ที่สร้างขึ้น

การฝึกอบรมขั้นที่สอง: การปรับแต่งแบบจำลอง QA บนคลังข้อมูลสังเคราะห์ และการปรับแต่งอย่างละเอียดบน SQuAD โมเดลสามารถประเมินได้ในโดเมนที่ต่างกัน
การผสมโมเดล: ปรับแต่งสองโมเดลบนคลังข้อมูลที่สร้างขึ้นและ SQuAD และหาค่าเฉลี่ยน้ำหนักทั้งหมดของทั้งสองโมเดลโดยใช้สคริปต์ mix_mode.py ด้วย

 python mix_model.py $MIX_RATE $SQUAD_MODEL_PATH $ RGX _MODEL_PATH

ตัวอย่างเช่น,

 python mix_model.py 0.5 model_ft_file/ext_sq.pt model_ft_file/ext_ RGX .pt

โมเดลเอาต์พุตจะถูกจัดเก็บเป็น model_ft_file/ext_mixed.pt

ติดต่อและอ้างอิง

โปรดติดต่อผู้เขียนคนแรก Hongyin Luo (hyluo ที่ mit dot edu) หากมีคำถามใดๆ หากระบบของเราถูกนำไปใช้ในงานของคุณ โปรดอ้างอิงเอกสารของเรา

 @article{luo2021cooperative,
  title={Cooperative self-training machine reading comprehension},
  author={Luo, Hongyin and Li, Shang-Wen and Mingye Gao, and Yu, Seunghak and Glass, James},
  journal={arXiv preprint arXiv:2103.07449},
  year={2021}
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2024-12-30
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
node telegram bot api

โค้ดแหล่งที่มา AI

v0.50.0
typebot.io

โค้ดแหล่งที่มา AI

v3.1.2
python wechaty getting started

โค้ดแหล่งที่มา AI

1.0.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด