Kertas | Instalasi | Contoh Cepat | Dataset | Wiki | Wajah memeluk
Beir adalah tolok ukur heterogen yang berisi beragam tugas IR. Ini juga menyediakan kerangka kerja yang umum dan mudah untuk evaluasi model pengambilan berbasis NLP Anda dalam tolok ukur.
Untuk tinjauan umum , periksa halaman wiki baru kami: https://github.com/beir-cellar/beir/wiki.
Untuk model dan kumpulan data , periksa halaman Hugging Face (HF) : https://huggingface.co/beir.
Untuk leaderboard , checkout out eval ai halaman: https://eval.ai/web/challenges/challenge-page/1897.
Untuk informasi lebih lanjut, periksa publikasi kami:
Instal via PIP:
pip install beir
Jika Anda ingin membangun dari sumber, gunakan:
$ git clone https : // github . com / beir - cellar / beir . git
$ cd beir
$ pip install - e .
Diuji dengan versi Python 3.6 dan 3.7
Untuk contoh kode lainnya, silakan merujuk ke contoh dan halaman wiki tutorial kami.
from beir import util , LoggingHandler
from beir . retrieval import models
from beir . datasets . data_loader import GenericDataLoader
from beir . retrieval . evaluation import EvaluateRetrieval
from beir . retrieval . search . dense import DenseRetrievalExactSearch as DRES
import logging
import pathlib , os
#### Just some code to print debug information to stdout
logging . basicConfig ( format = '%(asctime)s - %(message)s' ,
datefmt = '%Y-%m-%d %H:%M:%S' ,
level = logging . INFO ,
handlers = [ LoggingHandler ()])
#### /print debug information to stdout
#### Download scifact.zip dataset and unzip the dataset
dataset = "scifact"
url = "https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/{}.zip" . format ( dataset )
out_dir = os . path . join ( pathlib . Path ( __file__ ). parent . absolute (), "datasets" )
data_path = util . download_and_unzip ( url , out_dir )
#### Provide the data_path where scifact has been downloaded and unzipped
corpus , queries , qrels = GenericDataLoader ( data_folder = data_path ). load ( split = "test" )
#### Load the SBERT model and retrieve using cosine-similarity
model = DRES ( models . SentenceBERT ( "msmarco-distilbert-base-tas-b" ), batch_size = 16 )
retriever = EvaluateRetrieval ( model , score_function = "dot" ) # or "cos_sim" for cosine similarity
results = retriever . retrieve ( corpus , queries )
#### Evaluate your model with NDCG@k, MAP@K, Recall@K and Precision@K where k = [1,3,5,10,100,1000]
ndcg , _map , recall , precision = retriever . evaluate ( qrels , results , retriever . k_values )
Perintah untuk menghasilkan md5hash menggunakan terminal: md5sum filename.zip
.
Anda dapat melihat semua dataset yang tersedia di sini atau di wajah memeluk .
Dataset | Situs web | Beir-name | Publik? | Jenis | Kueri | Corpus | Rel d/q | Down-load | md5 |
---|---|---|---|---|---|---|---|---|---|
Msmarco | Beranda | msmarco | ✅ | train dev test | 6.980 | 8.84m | 1.1 | Link | 444067daf65d982533ea17ebd59501e4 |
TREC-COVID | Beranda | trec-covid | ✅ | test | 50 | 171k | 493.5 | Link | ce62140cb23feb9becf6270d0d1fe6d1 |
Nfcorpus | Beranda | nfcorpus | ✅ | train dev test | 323 | 3.6k | 38.2 | Link | a89dba18a62ef92f7d323ec890a0d38d |
Bioasq | Beranda | bioasq | train test | 500 | 14.91m | 4.7 | TIDAK | Bagaimana cara mereproduksi? | |
Nq | Beranda | nq | ✅ | train test | 3.452 | 2.68m | 1.2 | Link | d4d3d2e48787a744b6f6e691ff534307 |
Hotpotqa | Beranda | hotpotqa | ✅ | train dev test | 7.405 | 5.23m | 2.0 | Link | f412724f78b0d91183a0e86805e16114 |
FIQA-2018 | Beranda | fiqa | ✅ | train dev test | 648 | 57k | 2.6 | Link | 17918ed23cd04fb15047f73e6c3bd9d9 |
Signal-1m (RT) | Beranda | signal1m | test | 97 | 2.86m | 19.6 | TIDAK | Bagaimana cara mereproduksi? | |
Trec-news | Beranda | trec-news | test | 57 | 595k | 19.6 | TIDAK | Bagaimana cara mereproduksi? | |
Robust04 | Beranda | robust04 | test | 249 | 528k | 69.9 | TIDAK | Bagaimana cara mereproduksi? | |
Arguana | Beranda | arguana | ✅ | test | 1.406 | 8.67k | 1.0 | Link | 8ad3e3c2a5867cdced806d6503f29b99 |
Touche-2020 | Beranda | webis-touche2020 | ✅ | test | 49 | 382k | 19.0 | Link | 46f650ba5a527fc69e0a6521c5a23563 |
Cqadupstack | Beranda | cqadupstack | ✅ | test | 13.145 | 457K | 1.4 | Link | 4e41456d7df8ee7760a7f866133bda78 |
Quora | Beranda | quora | ✅ | dev test | 10.000 | 523k | 1.6 | Link | 18fb154900ba42a600f84b839c173167 |
Dbpedia | Beranda | dbpedia-entity | ✅ | dev test | 400 | 4.63m | 38.2 | Link | c2a39eb420a3164af735795df012ac2c |
Scidocs | Beranda | scidocs | ✅ | test | 1.000 | 25K | 4.9 | Link | 38121350fc3a4d2f48850f6aff52e4a9 |
DEMAM | Beranda | fever | ✅ | train dev test | 6.666 | 5.42m | 1.2 | Link | 5a818580227bfb4b35bb6fa46d9b6c03 |
Fever iklim | Beranda | climate-fever | ✅ | test | 1.535 | 5.42m | 3.0 | Link | 8b66f0a9126c521bae2bde127b4dc99d |
Scifact | Beranda | scifact | ✅ | train test | 300 | 5k | 1.1 | Link | 5f7d1de60b170fc8027bb7898e2efca1 |
Kami juga memberikan berbagai informasi tambahan di halaman wiki kami. Silakan merujuk ke halaman -halaman ini untuk hal -hal berikut:
Mirip dengan Dataset TensorFlow atau Perpustakaan Dataset Face, kami baru saja mengunduh dan menyiapkan kumpulan data publik. Kami hanya mendistribusikan kumpulan data ini dalam format tertentu, tetapi kami tidak menjamin kualitas atau keadilannya, atau mengklaim bahwa Anda memiliki lisensi untuk menggunakan dataset. Tetap bertanggung jawab pengguna untuk menentukan apakah Anda sebagai pengguna memiliki izin untuk menggunakan dataset di bawah lisensi dataset dan mengutip pemilik dataset yang tepat.
Jika Anda seorang pemilik dataset dan ingin memperbarui bagian mana pun dari itu, atau tidak ingin dataset Anda dimasukkan dalam perpustakaan ini, jangan ragu untuk memposting masalah di sini atau membuat permintaan tarik!
Jika Anda seorang pemilik dataset dan ingin memasukkan dataset atau model Anda di perpustakaan ini, jangan ragu untuk memposting masalah di sini atau membuat permintaan tarik!
Jika Anda merasa repositori ini bermanfaat, jangan ragu untuk mengutip publikasi kami BEIR: Benchmark heterogen untuk evaluasi nol-shot dari model pengambilan informasi:
@inproceedings{
thakur2021beir,
title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
year={2021},
url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}
Jika Anda menggunakan skor dasar apa pun dari papan peringkat Beir, jangan ragu untuk mengutip sumber daya publikasi kami untuk menyeduh Beir: model referensi yang dapat direproduksi dan papan peringkat resmi
@misc{kamalloo2023resources,
title={Resources for Brewing BEIR: Reproducible Reference Models and an Official Leaderboard},
author={Ehsan Kamalloo and Nandan Thakur and Carlos Lassance and Xueguang Ma and Jheng-Hong Yang and Jimmy Lin},
year={2023},
eprint={2306.07471},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
Kontributor utama repositori ini adalah:
Hubungi Orang: Nandan Thakur, [email protected]
Jangan ragu untuk mengirimi kami email atau melaporkan masalah, jika ada sesuatu yang rusak (dan seharusnya tidak) atau jika Anda memiliki pertanyaan lebih lanjut.
Repositori ini berisi perangkat lunak eksperimental dan diterbitkan untuk tujuan tunggal memberikan rincian latar belakang tambahan pada publikasi masing -masing.
Benchmark BEIR telah dimungkinkan karena upaya kolaboratif dari universitas dan organisasi berikut:
Terima kasih kepada semua kolaborasi yang luar biasa ini atas kontribusinya terhadap Benchmark Beir:
Nandan Thakur | Nils Reimers | Iryna Gurevych | Jimmy Lin | Andreas Rücklé | Abhishek Srivastava |