このレポは、言語モデルの事実性評価のためにベンチマークを生成するAI21 Labsの論文からのデータが含まれています。
言語モデルの事実性を評価するための次の要因ベンチマークを含めます。
必要なライブラリをリポジトリにインストールするには、実行してください。
pip install -r requirements.txt
CUDAに固有のPytorchバージョンを使用するには、上記のコマンドを実行する前にバージョンをインストールします。
論文では、次のモデルの結果を示します( $MODEL_NAME
それらのいずれかに置き換えます)。
gpt2
、 gpt2-medium
、 gpt2-large
、 gpt2-xl
EleutherAI/gpt-neo-1.3B
、 EleutherAI/gpt-neo-2.7B
、 EleutherAI/gpt-j-6B
facebook/opt-125m
、 facebook/opt-350m
、Facebook/ facebook/opt-2.7b
facebook/opt-1.3b
、Facebook facebook/opt-6.7b
、 facebook/opt-13b
、 facebook/opt-30b
、 facebook/opt-66b
ファクターデータセット上のモデルで評価を実行するには、次のコマンドを使用してください。
python python eval_factuality.py
--data_file ./data/wiki_factor.csv
--output_folder $OUTPUT_DIR
--model_name $MODEL_NAME
wiki_factor
、 expert_factor
およびコード:MITライセンスの下でリリースされました。news_factor
:ベンチマークは、RefinedWebデータセットから派生しています。公開抽出物は、ODC-1.0ライセンスの下で利用可能になります。ユーザーは、CommonCrawl Tou:https://commoncrawl.org/terms-of-use/にも順守する必要があります。 私たちの論文やコードが役立つと見つけたら、私たちの論文を引用してください。
@article{muhlgay2023generating,
title={Generating benchmarks for factuality evaluation of language models},
author={Muhlgay, Dor and Ram, Ori and Magar, Inbal and Levine, Yoav and Ratner, Nir and Belinkov, Yonatan and Abend, Omri and Leyton-Brown, Kevin and Shashua, Amnon and Shoham, Yoav},
journal={arXiv preprint arXiv:2307.06908},
year={2023}
}