This repo contains data from AI21 Labs' paper Generating Benchmarks for Factuality Evaluation of Language Models.
We include the following FACTOR benchmarks for evaluating factuality of language models:
Um die erforderlichen Bibliotheken in unserem Repo zu installieren, rennen Sie:
pip install -r requirements.txt
Installieren Sie Ihre Version, bevor Sie den obigen Befehl ausführen, um eine Pytorch -Version zu haben, die für Ihren CUDA spezifisch ist.
In dem Papier geben wir die Ergebnisse für die folgenden Modelle an ( $MODEL_NAME
ersetzen durch eine davon).
gpt2
, gpt2-medium
, gpt2-large
, gpt2-xl
EleutherAI/gpt-neo-1.3B
, EleutherAI/gpt-neo-2.7B
, EleutherAI/gpt-j-6B
facebook/opt-125m
, facebook/opt-350m
, Facebook/opt facebook/opt-2.7b
facebook/opt-1.3b
, Facebook/opt-2.7b, facebook/opt-6.7b
, facebook/opt-13b
, facebook/opt-30b
, facebook/opt-66b
Verwenden Sie den folgenden Befehl, um die Bewertung für Modelle über Faktor -Datensätze auszuführen:
python python eval_factuality.py
--data_file ./data/wiki_factor.csv
--output_folder $OUTPUT_DIR
--model_name $MODEL_NAME
wiki_factor
, expert_factor
und Code: Veröffentlicht unter der MIT -Lizenz.news_factor
: The benchmark is derived from The RefinedWeb Dataset. Der öffentliche Auszug wird im Rahmen einer ODC-bys 1.0-Lizenz zur Verfügung gestellt. Benutzer sollten sich auch an die Commoncrawl TOU halten: https://commoncrawl.org/terms-of-use/. Wenn Sie unser Papier oder Code hilfreich finden, zitieren Sie bitte unser Papier:
@article{muhlgay2023generating,
title={Generating benchmarks for factuality evaluation of language models},
author={Muhlgay, Dor and Ram, Ori and Magar, Inbal and Levine, Yoav and Ratner, Nir and Belinkov, Yonatan and Abend, Omri and Leyton-Brown, Kevin and Shashua, Amnon and Shoham, Yoav},
journal={arXiv preprint arXiv:2307.06908},
year={2023}
}