Papier | Installation | Schnelles Beispiel | Datensätze | Wiki | Umarmtes Gesicht
Beirr ist ein heterogener Benchmark mit verschiedenen IR -Aufgaben. Es bietet auch einen gemeinsamen und einfachen Rahmen für die Bewertung Ihrer NLP-basierten Abrufmodelle innerhalb des Benchmarks.
Eine Übersicht finden Sie auf unserer neuen Wiki- Seite: https://github.com/beir-cellar/ebeir/wiki.
Für Modelle und Datensätze finden Sie die Seite mit dem Umarmungsgesicht (HF) : https://huggingface.co/Beir.
Für die Rangliste finden Sie eine AI- Seite aus.
Weitere Informationen finden Sie in unseren Veröffentlichungen:
Installieren Sie über PIP:
pip install beir
Wenn Sie aus der Quelle erstellen möchten, verwenden Sie:
$ git clone https : // github . com / beir - cellar / beir . git
$ cd beir
$ pip install - e .
Getestet mit Python -Versionen 3.6 und 3.7
Weitere Beispiele finden Sie auf unseren Beispielen und Tutorials Wiki -Seite.
from beir import util , LoggingHandler
from beir . retrieval import models
from beir . datasets . data_loader import GenericDataLoader
from beir . retrieval . evaluation import EvaluateRetrieval
from beir . retrieval . search . dense import DenseRetrievalExactSearch as DRES
import logging
import pathlib , os
#### Just some code to print debug information to stdout
logging . basicConfig ( format = '%(asctime)s - %(message)s' ,
datefmt = '%Y-%m-%d %H:%M:%S' ,
level = logging . INFO ,
handlers = [ LoggingHandler ()])
#### /print debug information to stdout
#### Download scifact.zip dataset and unzip the dataset
dataset = "scifact"
url = "https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/{}.zip" . format ( dataset )
out_dir = os . path . join ( pathlib . Path ( __file__ ). parent . absolute (), "datasets" )
data_path = util . download_and_unzip ( url , out_dir )
#### Provide the data_path where scifact has been downloaded and unzipped
corpus , queries , qrels = GenericDataLoader ( data_folder = data_path ). load ( split = "test" )
#### Load the SBERT model and retrieve using cosine-similarity
model = DRES ( models . SentenceBERT ( "msmarco-distilbert-base-tas-b" ), batch_size = 16 )
retriever = EvaluateRetrieval ( model , score_function = "dot" ) # or "cos_sim" for cosine similarity
results = retriever . retrieve ( corpus , queries )
#### Evaluate your model with NDCG@k, MAP@K, Recall@K and Precision@K where k = [1,3,5,10,100,1000]
ndcg , _map , recall , precision = retriever . evaluate ( qrels , results , retriever . k_values )
Befehl zur Generierung von MD5HASH mit Terminal: md5sum filename.zip
.
Sie können alle hier verfügbaren Datensätze oder auf dem Umarmungsgesicht anzeigen.
Datensatz | Webseite | Beir.name | Öffentlich? | Typ | Abfragen | Korpus | Rel d/q | Herunterladen | MD5 |
---|---|---|---|---|---|---|---|---|---|
MSmarco | Homepage | msmarco | ✅ | train dev test | 6,980 | 8,84 m | 1.1 | Link | 444067daf65d982533ea17ebd59501e4 |
Trec-Covid | Homepage | trec-covid | ✅ | test | 50 | 171k | 493.5 | Link | ce62140cb23feb9becf6270d0d1fe6d1 |
NFcorpus | Homepage | nfcorpus | ✅ | train dev test | 323 | 3.6k | 38.2 | Link | a89dba18a62ef92f7d323ec890a0d38d |
Bioasq | Homepage | bioasq | train test | 500 | 14,91 m | 4.7 | NEIN | Wie reproduzieren ich? | |
Nq | Homepage | nq | ✅ | train test | 3.452 | 2,68 m | 1.2 | Link | d4d3d2e48787a744b6f6e691ff534307 |
Hotpotqa | Homepage | hotpotqa | ✅ | train dev test | 7.405 | 5,23 m | 2.0 | Link | f412724f78b0d91183a0e86805e16114 |
FIQA-2018 | Homepage | fiqa | ✅ | train dev test | 648 | 57k | 2.6 | Link | 17918ed23cd04fb15047f73e6c3bd9d9 |
Signal-1M (RT) | Homepage | signal1m | test | 97 | 2,86 m | 19.6 | NEIN | Wie reproduzieren ich? | |
Trec-News | Homepage | trec-news | test | 57 | 595k | 19.6 | NEIN | Wie reproduzieren ich? | |
Robust04 | Homepage | robust04 | test | 249 | 528K | 69.9 | NEIN | Wie reproduzieren ich? | |
Arguana | Homepage | arguana | ✅ | test | 1.406 | 8.67k | 1.0 | Link | 8ad3e3c2a5867cdced806d6503f29b99 |
Touch-2020 | Homepage | webis-touche2020 | ✅ | test | 49 | 382K | 19.0 | Link | 46f650ba5a527fc69e0a6521c5a23563 |
Cqadupstack | Homepage | cqadupstack | ✅ | test | 13.145 | 457K | 1.4 | Link | 4e41456d7df8ee7760a7f866133bda78 |
Quora | Homepage | quora | ✅ | dev test | 10.000 | 523K | 1.6 | Link | 18fb154900ba42a600f84b839c173167 |
Dbpedia | Homepage | dbpedia-entity | ✅ | dev test | 400 | 4,63 m | 38.2 | Link | c2a39eb420a3164af735795df012ac2c |
Scidocs | Homepage | scidocs | ✅ | test | 1.000 | 25k | 4.9 | Link | 38121350fc3a4d2f48850f6aff52e4a9 |
FIEBER | Homepage | fever | ✅ | train dev test | 6.666 | 5.42 m | 1.2 | Link | 5a818580227bfb4b35bb6fa46d9b6c03 |
Klima | Homepage | climate-fever | ✅ | test | 1.535 | 5.42 m | 3.0 | Link | 8b66f0a9126c521bae2bde127b4dc99d |
Scifact | Homepage | scifact | ✅ | train test | 300 | 5k | 1.1 | Link | 5f7d1de60b170fc8027bb7898e2efca1 |
Wir bieten auch eine Vielzahl zusätzlicher Informationen auf unserer Wiki -Seite. Bitte beachten Sie diese Seiten für Folgendes:
Ähnlich wie die Datasets -Bibliothek von TensorFlow oder Hugging Face haben wir gerade öffentliche Datensätze heruntergeladen und vorbereitet. Wir verteilen diese Datensätze nur in einem bestimmten Format, bürgen jedoch nicht für ihre Qualität oder Fairness oder behaupten, dass Sie die Lizenz zur Verwendung des Datensatzes haben. Es bleibt die Verantwortung des Benutzers zu bestimmen, ob Sie als Benutzer die Erlaubnis haben, den Datensatz unter der Lizenz des Datensatzes zu verwenden und den richtigen Eigentümer des Datensatzes zu zitieren.
Wenn Sie ein Datensatzbesitzer sind und einen Teil davon aktualisieren möchten oder nicht möchten, dass Ihr Datensatz in dieser Bibliothek aufgenommen wird, können Sie hier ein Problem veröffentlichen oder eine Pull -Anfrage stellen!
Wenn Sie Datensatzeigentümer sind und Ihr Datensatz oder Modell in diese Bibliothek aufnehmen möchten, können Sie hier ein Problem veröffentlichen oder eine Pull -Anfrage stellen!
Wenn Sie dieses Repository hilfreich finden, können Sie unsere Veröffentlichung BEIR: Ein heterogener Benchmark für die Bewertung von Informationsabrufmodellen zitieren:
@inproceedings{
thakur2021beir,
title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
year={2021},
url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}
Wenn Sie eine Basisbewertung aus der Beir -Rangliste verwenden, zitieren Sie unsere Veröffentlichungsressourcen für das Brauen von Beir: Reproduzierbare Referenzmodelle und eine offizielle Rangliste
@misc{kamalloo2023resources,
title={Resources for Brewing BEIR: Reproducible Reference Models and an Official Leaderboard},
author={Ehsan Kamalloo and Nandan Thakur and Carlos Lassance and Xueguang Ma and Jheng-Hong Yang and Jimmy Lin},
year={2023},
eprint={2306.07471},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
Die wichtigsten Mitwirkenden dieses Repositorys sind:
Kontaktperson: Nandan Thakur, [email protected]
Zögern Sie nicht, uns eine E-Mail zu senden oder ein Problem zu melden, wenn etwas gebrochen ist (und dies nicht sein sollte) oder wenn Sie weitere Fragen haben.
Dieses Repository enthält experimentelle Software und wird für den einzigen Zweck veröffentlicht, zusätzliche Hintergrunddetails zur jeweiligen Veröffentlichung anzugeben.
Der Beir -Benchmark wurde aufgrund einer Zusammenarbeit der folgenden Universitäten und Organisationen ermöglicht:
Vielen Dank an all diese wundervollen Zusammenarbeit für ihren Beitrag zum BEIR -Benchmark:
Nandan Thakur | Nils Reimer | Iryna Gurevych | Jimmy Lin | Andreas Rücklé | Abhishek Srivastava |