factor Download - factor -Quellcode -Download

factor

Anderer Quellcode

Herunterladen

FAKTOR

This repo contains data from AI21 Labs' paper Generating Benchmarks for Factuality Evaluation of Language Models.

Daten

We include the following FACTOR benchmarks for evaluating factuality of language models:

WIKI-FACTOR: Based on the Wikipedia section of The Pile's) validation split. Der Datensatz besteht aus 2994 Beispielen.
News-Factor: Basierend auf Reuters-Artikeln, die aus dem Datensatz von raffinedweb extrahiert wurden. Der Datensatz besteht aus 1036 Beispielen.
Experten-Faktor: Basierend auf den Validierungs- und Test-Splits von ExpertQA, einer langfromigen Frage, die den Datensatz beantwortet. Der Benchmark besteht aus 236 Beispielen.

Auswertung

Aufstellen

Um die erforderlichen Bibliotheken in unserem Repo zu installieren, rennen Sie:

pip install -r requirements.txt

Installieren Sie Ihre Version, bevor Sie den obigen Befehl ausführen, um eine Pytorch -Version zu haben, die für Ihren CUDA spezifisch ist.

Liste der Sprachmodelle

In dem Papier geben wir die Ergebnisse für die folgenden Modelle an ( $MODEL_NAME ersetzen durch eine davon).

GPT-2: gpt2 , gpt2-medium , gpt2-large , gpt2-xl
GPT-NEO: EleutherAI/gpt-neo-1.3B , EleutherAI/gpt-neo-2.7B , EleutherAI/gpt-j-6B
OPT: facebook/opt-125m , facebook/opt-350m , Facebook/opt facebook/opt-2.7b facebook/opt-1.3b , Facebook/opt-2.7b, facebook/opt-6.7b , facebook/opt-13b , facebook/opt-30b , facebook/opt-66b

Bewertungsskript

Verwenden Sie den folgenden Befehl, um die Bewertung für Modelle über Faktor -Datensätze auszuführen:

python python eval_factuality.py 
--data_file ./data/wiki_factor.csv 
--output_folder $OUTPUT_DIR 
--model_name $MODEL_NAME

Lizenz

wiki_factor , expert_factor und Code: Veröffentlicht unter der MIT -Lizenz.
news_factor : The benchmark is derived from The RefinedWeb Dataset. Der öffentliche Auszug wird im Rahmen einer ODC-bys 1.0-Lizenz zur Verfügung gestellt. Benutzer sollten sich auch an die Commoncrawl TOU halten: https://commoncrawl.org/terms-of-use/.

Zitat

Wenn Sie unser Papier oder Code hilfreich finden, zitieren Sie bitte unser Papier:

 @article{muhlgay2023generating,
  title={Generating benchmarks for factuality evaluation of language models},
  author={Muhlgay, Dor and Ram, Ori and Magar, Inbal and Levine, Yoav and Ratner, Nir and Belinkov, Yonatan and Abend, Omri and Leyton-Brown, Kevin and Shashua, Amnon and Shoham, Yoav},
  journal={arXiv preprint arXiv:2307.06908},
  year={2023}
}

Expandieren

Zusätzliche Informationen