Ce repo contient des données des repères générateurs d'articles d'Ai21 Labs pour l'évaluation de la factualité des modèles de langage.
Nous incluons les références facteurs suivantes pour évaluer la factualité des modèles de langue:
Pour installer les bibliothèques requises dans notre dépôt, exécutez:
pip install -r requirements.txt
Pour avoir une version Pytorch spécifique à votre CUDA, installez votre version avant d'exécuter la commande ci-dessus.
Dans l'article, nous donnons les résultats pour les modèles suivants (remplacez $MODEL_NAME
par l'un de ceux-ci).
gpt2
, gpt2-medium
, gpt2-large
, gpt2-xl
EleutherAI/gpt-neo-1.3B
, EleutherAI/gpt-neo-2.7B
, EleutherAI/gpt-j-6B
facebook/opt-125m
, facebook/opt-350m
, Facebook / facebook/opt-2.7b
facebook/opt-1.3b
, Facebook / Opt-2.7b, facebook/opt-6.7b
, facebook/opt-13b
, facebook/opt-30b
, facebook/opt-66b
Pour exécuter l'évaluation sur les modèles sur les ensembles de données Factor, veuillez utiliser la commande suivante:
python python eval_factuality.py
--data_file ./data/wiki_factor.csv
--output_folder $OUTPUT_DIR
--model_name $MODEL_NAME
wiki_factor
, expert_factor
et code: publié sous la licence MIT.news_factor
: Le benchmark est dérivé de l'ensemble de données RefinedWeb. L'extrait public est mis à disposition sous une licence ODC-BY 1.0; Les utilisateurs doivent également respecter le CommonCrawl Tou: https://commoncrawl.org/terms-of-use/. Si vous trouvez notre papier ou notre code utile, veuillez citer notre papier:
@article{muhlgay2023generating,
title={Generating benchmarks for factuality evaluation of language models},
author={Muhlgay, Dor and Ram, Ori and Magar, Inbal and Levine, Yoav and Ratner, Nir and Belinkov, Yonatan and Abend, Omri and Leyton-Brown, Kevin and Shashua, Amnon and Shoham, Yoav},
journal={arXiv preprint arXiv:2307.06908},
year={2023}
}