Este repo contém dados dos benchmarks de papel da AI21 Labs, gerando benchmarks para avaliação de factualidade dos modelos de idiomas.
Incluímos os seguintes referências fatoriais para avaliar a factualidade dos modelos de idiomas:
Para instalar as bibliotecas necessárias em nosso repositório, execute:
pip install -r requirements.txt
Para ter uma versão pytorch específica para o seu CUDA, instale sua versão antes de executar o comando acima.
No artigo, fornecemos os resultados para os seguintes modelos (substitua $MODEL_NAME
por um deles).
gpt2
, gpt2-medium
, gpt2-large
, gpt2-xl
EleutherAI/gpt-neo-1.3B
, EleutherAI/gpt-neo-2.7B
, EleutherAI/gpt-j-6B
facebook/opt-125m
, facebook/opt-350m
, Facebook/ facebook/opt-2.7b
facebook/opt-1.3b
, Facebook/Opt-2.7b, facebook/opt-6.7b
, facebook/opt-13b
, facebook/opt-30b
, facebook/opt-66b
Para executar a avaliação em modelos sobre conjuntos de dados fatoriais, use o seguinte comando:
python python eval_factuality.py
--data_file ./data/wiki_factor.csv
--output_folder $OUTPUT_DIR
--model_name $MODEL_NAME
wiki_factor
, expert_factor
e Code: Lançado sob a licença do MIT.news_factor
: O benchmark é derivado do conjunto de dados RefinedWeb. O extrato público é disponibilizado sob uma licença ODC-BY 1.0; Os usuários também devem cumprir o CommonCrawl Tou: https://commonCrawl.org/terms-of-use/. Se você achar útil nosso papel ou código, cite nosso artigo:
@article{muhlgay2023generating,
title={Generating benchmarks for factuality evaluation of language models},
author={Muhlgay, Dor and Ram, Ori and Magar, Inbal and Levine, Yoav and Ratner, Nir and Belinkov, Yonatan and Abend, Omri and Leyton-Brown, Kevin and Shashua, Amnon and Shoham, Yoav},
journal={arXiv preprint arXiv:2307.06908},
year={2023}
}