repo นี้มีข้อมูลจากการสร้างกระดาษของ AI21 Labs สำหรับการประเมินความเป็นจริงของแบบจำลองภาษา
เรารวมมาตรฐานปัจจัยต่อไปนี้สำหรับการประเมินความเป็นจริงของแบบจำลองภาษา:
ในการติดตั้งไลบรารีที่ต้องการใน repo ของเรา Run:
pip install -r requirements.txt
หากต้องการมีรุ่น pytorch เฉพาะสำหรับ cuda ของคุณให้ติดตั้งเวอร์ชันของคุณก่อนที่จะเรียกใช้คำสั่งด้านบน
ในกระดาษเราให้ผลลัพธ์สำหรับรุ่นต่อไปนี้ (แทนที่ $MODEL_NAME
ด้วยหนึ่งในนั้น)
gpt2
, gpt2-medium
, gpt2-large
, gpt2-xl
EleutherAI/gpt-neo-1.3B
, EleutherAI/gpt-neo-2.7B
, EleutherAI/gpt-j-6B
facebook/opt-125m
, facebook/opt-350m
, facebook/opt-1.3b
, facebook/opt-2.7b
, facebook/opt-6.7b
, facebook/opt-13b
, facebook/opt-30b
, facebook/opt-66b
ในการเรียกใช้การประเมินผลบนชุดข้อมูลมากกว่าชุดข้อมูลโปรดใช้คำสั่งต่อไปนี้:
python python eval_factuality.py
--data_file ./data/wiki_factor.csv
--output_folder $OUTPUT_DIR
--model_name $MODEL_NAME
wiki_factor
, expert_factor
และรหัส: เผยแพร่ภายใต้ใบอนุญาต MITnews_factor
: เกณฑ์มาตรฐานมาจากชุดข้อมูล refinedweb สารสกัดจากสาธารณะมีให้บริการภายใต้ใบอนุญาต ODC-by 1.0; ผู้ใช้ควรปฏิบัติตาม Commoncrawl TOU: https://commoncrawl.org/terms-of-use/ หากคุณพบว่ากระดาษหรือรหัสของเรามีประโยชน์โปรดอ้างอิงกระดาษของเรา:
@article{muhlgay2023generating,
title={Generating benchmarks for factuality evaluation of language models},
author={Muhlgay, Dor and Ram, Ori and Magar, Inbal and Levine, Yoav and Ratner, Nir and Belinkov, Yonatan and Abend, Omri and Leyton-Brown, Kevin and Shashua, Amnon and Shoham, Yoav},
journal={arXiv preprint arXiv:2307.06908},
year={2023}
}