論文|インストール|簡単な例|データセット| wiki |顔を抱き締める
Beirは、多様なIRタスクを含む不均一なベンチマークです。また、ベンチマーク内でNLPベースの検索モデルを評価するための一般的で簡単なフレームワークを提供します。
概要については、新しいwikiページhttps://github.com/beir-cellar/beir/wikiをチェックアウトしてください。
モデルとデータセットの場合、ハグの顔(HF)ページをチェックアウト:https://huggingface.co/beir。
リーダーボードについては、 AIページをチェックアウトしてください:https://eval.ai/web/challenges/challenge-page/1897。
詳細については、出版物をチェックアウトしてください。
PIP経由でインストール:
pip install beir
ソースからビルドしたい場合は、以下を使用してください。
$ git clone https : // github . com / beir - cellar / beir . git
$ cd beir
$ pip install - e .
Pythonバージョン3.6および3.7でテストされています
他の例コードについては、例とチュートリアルのWikiページを参照してください。
from beir import util , LoggingHandler
from beir . retrieval import models
from beir . datasets . data_loader import GenericDataLoader
from beir . retrieval . evaluation import EvaluateRetrieval
from beir . retrieval . search . dense import DenseRetrievalExactSearch as DRES
import logging
import pathlib , os
#### Just some code to print debug information to stdout
logging . basicConfig ( format = '%(asctime)s - %(message)s' ,
datefmt = '%Y-%m-%d %H:%M:%S' ,
level = logging . INFO ,
handlers = [ LoggingHandler ()])
#### /print debug information to stdout
#### Download scifact.zip dataset and unzip the dataset
dataset = "scifact"
url = "https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/{}.zip" . format ( dataset )
out_dir = os . path . join ( pathlib . Path ( __file__ ). parent . absolute (), "datasets" )
data_path = util . download_and_unzip ( url , out_dir )
#### Provide the data_path where scifact has been downloaded and unzipped
corpus , queries , qrels = GenericDataLoader ( data_folder = data_path ). load ( split = "test" )
#### Load the SBERT model and retrieve using cosine-similarity
model = DRES ( models . SentenceBERT ( "msmarco-distilbert-base-tas-b" ), batch_size = 16 )
retriever = EvaluateRetrieval ( model , score_function = "dot" ) # or "cos_sim" for cosine similarity
results = retriever . retrieve ( corpus , queries )
#### Evaluate your model with NDCG@k, MAP@K, Recall@K and Precision@K where k = [1,3,5,10,100,1000]
ndcg , _map , recall , precision = retriever . evaluate ( qrels , results , retriever . k_values )
ターミナルを使用してMD5HASHを生成するコマンド: md5sum filename.zip
。
ここまたは抱き合っている顔で利用可能なすべてのデータセットを表示できます。
データセット | Webサイト | Beir-name | 公共? | タイプ | クエリ | コーパス | rel d/q | ダウンロード | MD5 |
---|---|---|---|---|---|---|---|---|---|
MSMARCO | ホームページ | msmarco | ✅ | train dev test | 6,980 | 8.84m | 1.1 | リンク | 444067daf65d982533ea17ebd59501e4 |
Trec-Covid | ホームページ | trec-covid | ✅ | test | 50 | 171K | 493.5 | リンク | ce62140cb23feb9becf6270d0d1fe6d1 |
nfcorpus | ホームページ | nfcorpus | ✅ | train dev test | 323 | 3.6k | 38.2 | リンク | a89dba18a62ef92f7d323ec890a0d38d |
Bioasq | ホームページ | bioasq | train test | 500 | 14.91m | 4.7 | いいえ | 再現する方法は? | |
NQ | ホームページ | nq | ✅ | train test | 3,452 | 2.68m | 1.2 | リンク | d4d3d2e48787a744b6f6e691ff534307 |
hotpotqa | ホームページ | hotpotqa | ✅ | train dev test | 7,405 | 5.23m | 2.0 | リンク | f412724f78b0d91183a0e86805e16114 |
FIQA-2018 | ホームページ | fiqa | ✅ | train dev test | 648 | 57k | 2.6 | リンク | 17918ed23cd04fb15047f73e6c3bd9d9 |
Signal-1M(RT) | ホームページ | signal1m | test | 97 | 2.86m | 19.6 | いいえ | 再現する方法は? | |
Trec-News | ホームページ | trec-news | test | 57 | 595k | 19.6 | いいえ | 再現する方法は? | |
robust04 | ホームページ | robust04 | test | 249 | 528K | 69.9 | いいえ | 再現する方法は? | |
アルガナ | ホームページ | arguana | ✅ | test | 1,406 | 8.67K | 1.0 | リンク | 8ad3e3c2a5867cdced806d6503f29b99 |
Touche-2020 | ホームページ | webis-touche2020 | ✅ | test | 49 | 382K | 19.0 | リンク | 46f650ba5a527fc69e0a6521c5a23563 |
cqadupstack | ホームページ | cqadupstack | ✅ | test | 13,145 | 457K | 1.4 | リンク | 4e41456d7df8ee7760a7f866133bda78 |
Quora | ホームページ | quora | ✅ | dev test | 10,000 | 523K | 1.6 | リンク | 18fb154900ba42a600f84b839c173167 |
dbpedia | ホームページ | dbpedia-entity | ✅ | dev test | 400 | 4.63m | 38.2 | リンク | c2a39eb420a3164af735795df012ac2c |
Scidocs | ホームページ | scidocs | ✅ | test | 1,000 | 25k | 4.9 | リンク | 38121350fc3a4d2f48850f6aff52e4a9 |
熱 | ホームページ | fever | ✅ | train dev test | 6,666 | 5.42m | 1.2 | リンク | 5a818580227bfb4b35bb6fa46d9b6c03 |
気候のない | ホームページ | climate-fever | ✅ | test | 1,535 | 5.42m | 3.0 | リンク | 8b66f0a9126c521bae2bde127b4dc99d |
scifact | ホームページ | scifact | ✅ | train test | 300 | 5k | 1.1 | リンク | 5f7d1de60b170fc8027bb7898e2efca1 |
また、 Wikiページにさまざまな追加情報を提供しています。これらのページを参照してください。
TensorflowデータセットやFaceのデータセットライブラリを抱き締めるのと同様に、パブリックデータセットをダウンロードして準備しました。これらのデータセットは特定の形式でのみ配布しますが、品質や公平性を保証したり、データセットを使用するライセンスがあると主張したりしません。ユーザーとしてのあなたがデータセットのライセンスに基づいてデータセットを使用する許可を持っているかどうかを判断し、データセットの適切な所有者を引用することは、ユーザーの責任です。
あなたがデータセットの所有者であり、その一部を更新したい場合、またはデータセットをこのライブラリに含めることを望まない場合は、ここに問題を投稿するか、プルリクエストを行ってください!
あなたがデータセットの所有者であり、このライブラリにデータセットまたはモデルを含めることを希望する場合は、ここに問題を投稿するか、プルリクエストを作成してください!
このリポジトリが役立つと思われる場合は、私たちの出版物Beir:ゼロショット評価のための異種のベンチマークを自由に引用してください。
@inproceedings{
thakur2021beir,
title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
year={2021},
url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}
Beir Leaderboardのベースラインスコアを使用する場合は、Beir Beir:Reproduable Reference Modelsと公式リーダーボードの出版リソースをお気軽に引用してください
@misc{kamalloo2023resources,
title={Resources for Brewing BEIR: Reproducible Reference Models and an Official Leaderboard},
author={Ehsan Kamalloo and Nandan Thakur and Carlos Lassance and Xueguang Ma and Jheng-Hong Yang and Jimmy Lin},
year={2023},
eprint={2306.07471},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
このリポジトリの主な貢献者は次のとおりです。
連絡先:Nandan Thakur、[email protected]
何かが壊れている場合(そしてそうすべきではない)、またはさらに質問がある場合、電子メールを送信したり、問題を報告したりすることを躊躇しないでください。
このリポジトリには実験ソフトウェアが含まれており、それぞれの出版物に追加の背景詳細を提供することを目的として公開されています。
Beirのベンチマークは、次の大学や組織の共同の努力により、可能になりました。
Beirベンチマークへの貢献について、これらすべての素晴らしいコラボレーションに感謝します。
ナンダン・タクール | ニルス・レイマーズ | Iryna Gurevych | ジミーリン | アンドレアス・リュックレ | Abhishek Srivastava |