Téléchargement factor - Téléchargement du code source factor

factor

Autre code source

Télécharger

FACTEUR

Ce repo contient des données des repères générateurs d'articles d'Ai21 Labs pour l'évaluation de la factualité des modèles de langage.

Données

Nous incluons les références facteurs suivantes pour évaluer la factualité des modèles de langue:

Wiki-Factor: basé sur la section Wikipedia de la scission de validation de la pile). L'ensemble de données se compose de 2994 exemples.
Facteur de nouvelles: basé sur des articles Reuters extraits de l'ensemble de données RefinedWeb. L'ensemble de données se compose de 1036 exemples.
Facteur expert: basé sur la validation et les divisions de test d'expertsQA, une question longue de la question répondant à un ensemble de données. La référence se compose de 236 exemples.

Évaluation

Installation

Pour installer les bibliothèques requises dans notre dépôt, exécutez:

pip install -r requirements.txt

Pour avoir une version Pytorch spécifique à votre CUDA, installez votre version avant d'exécuter la commande ci-dessus.

Liste des modèles de langue

Dans l'article, nous donnons les résultats pour les modèles suivants (remplacez $MODEL_NAME par l'un de ceux-ci).

GPT-2: gpt2 , gpt2-medium , gpt2-large , gpt2-xl
Gpt-neo: EleutherAI/gpt-neo-1.3B , EleutherAI/gpt-neo-2.7B , EleutherAI/gpt-j-6B
OPT: facebook/opt-125m , facebook/opt-350m , Facebook / facebook/opt-2.7b facebook/opt-1.3b , Facebook / Opt-2.7b, facebook/opt-6.7b , facebook/opt-13b , facebook/opt-30b , facebook/opt-66b

Script d'évaluation

Pour exécuter l'évaluation sur les modèles sur les ensembles de données Factor, veuillez utiliser la commande suivante:

python python eval_factuality.py 
--data_file ./data/wiki_factor.csv 
--output_folder $OUTPUT_DIR 
--model_name $MODEL_NAME

Licence

wiki_factor , expert_factor et code: publié sous la licence MIT.
news_factor : Le benchmark est dérivé de l'ensemble de données RefinedWeb. L'extrait public est mis à disposition sous une licence ODC-BY 1.0; Les utilisateurs doivent également respecter le CommonCrawl Tou: https://commoncrawl.org/terms-of-use/.

Citation

Si vous trouvez notre papier ou notre code utile, veuillez citer notre papier:

 @article{muhlgay2023generating,
  title={Generating benchmarks for factuality evaluation of language models},
  author={Muhlgay, Dor and Ram, Ori and Magar, Inbal and Levine, Yoav and Ratner, Nir and Belinkov, Yonatan and Abend, Omri and Leyton-Brown, Kevin and Shashua, Amnon and Shoham, Yoav},
  journal={arXiv preprint arXiv:2307.06908},
  year={2023}
}

Développer

Informations supplémentaires

Version
Type Autre code source
Date de mise à jour 2025-02-02
taille 3.79MB
Provenant de Github

Applications connexes

wporg two factor

2024-11-08

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
wp functions

Autres catégories

1.0.0
termwind

Autres catégories

v2.3.0

Actualités connexes Tout

Où puis-je télécharger Abiotic Factor ?
2024-05-06