이 repo에는 언어 모델의 사실 평가를위한 AI21 Labs의 논문 생성 벤치 마크의 데이터가 포함되어 있습니다.
우리는 언어 모델의 사실을 평가하기위한 다음 요소 벤치 마크를 포함합니다.
저장소에 필요한 라이브러리를 설치하려면 실행하십시오.
pip install -r requirements.txt
CUDA에 특정한 Pytorch 버전을 사용하려면 위 명령을 실행하기 전에 버전을 설치하십시오.
이 논문에서는 다음 모델의 결과를 제공합니다 ( $MODEL_NAME
그 중 하나로 바꾸십시오).
gpt2
, gpt2-medium
, gpt2-large
, gpt2-xl
EleutherAI/gpt-neo-1.3B
, EleutherAI/gpt-neo-2.7B
, EleutherAI/gpt-j-6B
facebook/opt-125m
, facebook/opt-350m
, Facebook/ facebook/opt-2.7b
facebook/opt-1.3b
, Facebook/Opt-2.7b, facebook/opt-6.7b
, facebook/opt-13b
, facebook/opt-30b
, facebook/opt-66b
오버 팩터 데이터 세트에 대한 평가를 실행하려면 다음 명령을 사용하십시오.
python python eval_factuality.py
--data_file ./data/wiki_factor.csv
--output_folder $OUTPUT_DIR
--model_name $MODEL_NAME
wiki_factor
, expert_factor
및 코드 : MIT 라이센스에 따라 릴리스됩니다.news_factor
: 벤치 마크는 정제 된 웹 데이터 세트에서 파생됩니다. 공개 추출물은 ODC-By 1.0 라이센스에 따라 제공됩니다. 사용자는 또한 CommonCrawl tou : https://commoncrawl.org/terms-od-use/를 준수해야합니다. 우리의 논문이나 코드가 도움이되면 우리의 논문을 인용하십시오.
@article{muhlgay2023generating,
title={Generating benchmarks for factuality evaluation of language models},
author={Muhlgay, Dor and Ram, Ori and Magar, Inbal and Levine, Yoav and Ratner, Nir and Belinkov, Yonatan and Abend, Omri and Leyton-Brown, Kevin and Shashua, Amnon and Shoham, Yoav},
journal={arXiv preprint arXiv:2307.06908},
year={2023}
}