يحتوي هذا الريبو على بيانات من ورقة AI21 Labs التي تولد معايير لتقييم النماذج اللغة.
نحن ندرج معايير العوامل التالية لتقييم واقعية نماذج اللغة:
لتثبيت المكتبات المطلوبة في ريبو لدينا ، قم بتشغيل:
pip install -r requirements.txt
للحصول على إصدار Pytorch خاص بـ CUDA ، قم بتثبيت الإصدار قبل تشغيل الأمر أعلاه.
في الورقة ، نقدم نتائج النماذج التالية (استبدل $MODEL_NAME
بواحد من تلك).
gpt2
، gpt2-medium
، gpt2-large
، gpt2-xl
EleutherAI/gpt-neo-1.3B
، EleutherAI/gpt-neo-2.7B
، EleutherAI/gpt-j-6B
facebook/opt-125m
، facebook/opt-350m
، Facebook/OPT facebook/opt-2.7b
facebook/opt-1.3b
، Facebook/ facebook/opt-6.7b
، facebook/opt-13b
، facebook/opt-30b
، facebook/opt-66b
لتشغيل التقييم على النماذج عبر مجموعات بيانات العوامل ، يرجى استخدام الأمر التالي:
python python eval_factuality.py
--data_file ./data/wiki_factor.csv
--output_folder $OUTPUT_DIR
--model_name $MODEL_NAME
wiki_factor
، expert_factor
والرمز: تم إصداره ضمن ترخيص معهد ماساتشوستس للتكنولوجيا.news_factor
: يتم اشتقاق المعيار من مجموعة بيانات DESITEDWEB. يتم توفير المستخلص العام بموجب ترخيص ODC-By 1.0 ؛ يجب على المستخدمين أيضًا الالتزام بـ CommonCrawl TOU: https://commoncrawl.org/terms-of-use/. إذا وجدت ورقتنا أو رمزنا مفيدة ، فيرجى الاستشهاد بالورقة:
@article{muhlgay2023generating,
title={Generating benchmarks for factuality evaluation of language models},
author={Muhlgay, Dor and Ram, Ori and Magar, Inbal and Levine, Yoav and Ratner, Nir and Belinkov, Yonatan and Abend, Omri and Leyton-Brown, Kevin and Shashua, Amnon and Shoham, Yoav},
journal={arXiv preprint arXiv:2307.06908},
year={2023}
}