Este repositorio contiene datos del documento de AI21 Labs que generan puntos de referencia para la evaluación de la facturidad de los modelos de idiomas.
Incluimos los siguientes puntos de referencia del factor para evaluar la facturidad de los modelos de idiomas:
Para instalar las bibliotecas requeridas en nuestro repositorio, ejecute:
pip install -r requirements.txt
Para tener una versión de Pytorch específica para su CUDA, instale su versión antes de ejecutar el comando anterior.
En el documento, damos los resultados para los siguientes modelos (reemplace $MODEL_NAME
con uno de esos).
gpt2
, gpt2-medium
, gpt2-large
, gpt2-xl
EleutherAI/gpt-neo-1.3B
, EleutherAI/gpt-neo-2.7B
, EleutherAI/gpt-j-6B
facebook/opt-125m
, facebook/opt-350m
, Facebook/Opt facebook/opt-2.7b
facebook/opt-1.3b
, Facebook/Opt-2.7b, facebook/opt-6.7b
, facebook/opt-13b
, facebook/opt-30b
, facebook/opt-66b
Para ejecutar la evaluación en los conjuntos de datos de los modelos sobre factores, utilice el siguiente comando:
python python eval_factuality.py
--data_file ./data/wiki_factor.csv
--output_folder $OUTPUT_DIR
--model_name $MODEL_NAME
wiki_factor
, expert_factor
y código: lanzado bajo la licencia MIT.news_factor
: el punto de referencia se deriva del conjunto de datos refinados. El extracto público está disponible bajo una licencia ODC-By 1.0; Los usuarios también deben cumplir con CommonCrawl Tou: https://commoncrawl.org/terms-of-use/. Si encuentra útil nuestro documento o código, cite nuestro documento:
@article{muhlgay2023generating,
title={Generating benchmarks for factuality evaluation of language models},
author={Muhlgay, Dor and Ram, Ori and Magar, Inbal and Levine, Yoav and Ratner, Nir and Belinkov, Yonatan and Abend, Omri and Leyton-Brown, Kevin and Shashua, Amnon and Shoham, Yoav},
journal={arXiv preprint arXiv:2307.06908},
year={2023}
}