beir下载 - beir源代码下载

beir

其他源码

v2.0.0: We are back with bugfixes and improving BEIR after a long break

下载

纸|安装|快速示例|数据集| Wiki |拥抱脸

？这是什么？

贝尔是包含不同IR任务的异质基准。它还提供了一个常见且简单的框架，用于评估基于NLP的检索模型。

有关概述，请查看我们的新Wiki页面：https：//github.com/beir-cellar/beir/wiki。

对于型号和数据集，请查看拥抱面（HF）页面：https：//huggingface.co/beir。

对于排行榜，请结帐评估AI页面：https：//eval.ai/web/challenges/challenge-page/1897。

有关更多信息，请查看我们的出版物：

贝尔：用于零摄入信息检索模型的异质基准（Neurips 2021，数据集和基准轨迹）
酿造Beir的资源：可重复的参考模型和官方排行榜（ARXIV 2023）

？安装

通过PIP安装：

 pip install beir

如果要从源构建，请使用：

$ git clone https : // github . com / beir - cellar / beir . git
$ cd beir
$ pip install - e .

用Python版本3.6和3.7测试

？特征

预处理您自己的IR数据集或使用已经进行了预处理的17个基准数据集之一
包括广泛的设置包括对学术界和行业有用的各种基准
包括众所周知的检索体系结构（词汇，密集，稀疏和基于重新的架构）
使用不同的最先进的评估指标，在简单的框架中添加和评估自己的模型

？快速示例

有关其他示例代码，请参阅我们的示例和教程Wiki页面。

 from beir import util , LoggingHandler
from beir . retrieval import models
from beir . datasets . data_loader import GenericDataLoader
from beir . retrieval . evaluation import EvaluateRetrieval
from beir . retrieval . search . dense import DenseRetrievalExactSearch as DRES

import logging
import pathlib , os

#### Just some code to print debug information to stdout
logging . basicConfig ( format = '%(asctime)s - %(message)s' ,
                    datefmt = '%Y-%m-%d %H:%M:%S' ,
                    level = logging . INFO ,
                    handlers = [ LoggingHandler ()])
#### /print debug information to stdout

#### Download scifact.zip dataset and unzip the dataset
dataset = "scifact"
url = "https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/{}.zip" . format ( dataset )
out_dir = os . path . join ( pathlib . Path ( __file__ ). parent . absolute (), "datasets" )
data_path = util . download_and_unzip ( url , out_dir )

#### Provide the data_path where scifact has been downloaded and unzipped
corpus , queries , qrels = GenericDataLoader ( data_folder = data_path ). load ( split = "test" )

#### Load the SBERT model and retrieve using cosine-similarity
model = DRES ( models . SentenceBERT ( "msmarco-distilbert-base-tas-b" ), batch_size = 16 )
retriever = EvaluateRetrieval ( model , score_function = "dot" ) # or "cos_sim" for cosine similarity
results = retriever . retrieve ( corpus , queries )

#### Evaluate your model with NDCG@k, MAP@K, Recall@K and Precision@K  where k = [1,3,5,10,100,1000] 
ndcg , _map , recall , precision = retriever . evaluate ( qrels , results , retriever . k_values )

？可用数据集

命令使用终端： md5sum filename.zip生成MD5HASH。

您可以在此处或拥抱脸时查看所有可用的数据集。

数据集	网站	贝尔名称	民众？	类型	查询	语料库	rel d/q	下载	MD5
MSMARCO	首页	`msmarco`	✅	`train` `dev` `test`	6,980	884万	1.1	关联	`444067daf65d982533ea17ebd59501e4`
trec-covid	首页	`trec-covid`	✅	`test`	50	171k	493.5	关联	`ce62140cb23feb9becf6270d0d1fe6d1`
nfcorpus	首页	`nfcorpus`	✅	`train` `dev` `test`	323	3.6k	38.2	关联	`a89dba18a62ef92f7d323ec890a0d38d`
Bioasq	首页	`bioasq`		`train` `test`	500	14.91m	4.7	不	如何繁殖？
NQ	首页	`nq`	✅	`train` `test`	3,452	268m	1.2	关联	`d4d3d2e48787a744b6f6e691ff534307`
hotpotqa	首页	`hotpotqa`	✅	`train` `dev` `test`	7,405	523m	2.0	关联	`f412724f78b0d91183a0e86805e16114`
FIQA-2018	首页	`fiqa`	✅	`train` `dev` `test`	648	57k	2.6	关联	`17918ed23cd04fb15047f73e6c3bd9d9`
信号1M（RT）	首页	`signal1m`		`test`	97	286万	19.6	不	如何繁殖？
trec-news	首页	`trec-news`		`test`	57	595k	19.6	不	如何繁殖？
鲁棒04	首页	`robust04`		`test`	249	528k	69.9	不	如何繁殖？
Arguana	首页	`arguana`	✅	`test`	1,406	8.67k	1.0	关联	`8ad3e3c2a5867cdced806d6503f29b99`
Touche-2020	首页	`webis-touche2020`	✅	`test`	49	382k	19.0	关联	`46f650ba5a527fc69e0a6521c5a23563`
cqadupstack	首页	`cqadupstack`	✅	`test`	13,145	457K	1.4	关联	`4e41456d7df8ee7760a7f866133bda78`
Quora	首页	`quora`	✅	`dev` `test`	10,000	523k	1.6	关联	`18fb154900ba42a600f84b839c173167`
dbpedia	首页	`dbpedia-entity`	✅	`dev` `test`	400	4.63m	38.2	关联	`c2a39eb420a3164af735795df012ac2c`
Scidocs	首页	`scidocs`	✅	`test`	1,000	25k	4.9	关联	`38121350fc3a4d2f48850f6aff52e4a9`
发烧	首页	`fever`	✅	`train` `dev` `test`	6,666	5.42m	1.2	关联	`5a818580227bfb4b35bb6fa46d9b6c03`
气候狂热	首页	`climate-fever`	✅	`test`	1,535	5.42m	3.0	关联	`8b66f0a9126c521bae2bde127b4dc99d`
依恋	首页	`scifact`	✅	`train` `test`	300	5k	1.1	关联	`5f7d1de60b170fc8027bb7898e2efca1`

？附加信息

我们还在Wiki页面中提供了各种其他信息。请参阅以下信息：

快速开始

安装贝尔
示例和教程

数据集

可用数据集
多语言数据集
加载您的自定义数据集

型号

可用的型号
评估您的自定义模型

指标

可用的指标

各种各样的

贝尔排行榜
ir上的材料

？免责声明

类似于TensorFlow数据集或拥抱Face的数据集库，我们刚刚下载并准备了公共数据集。我们仅以特定的格式分发这些数据集，但我们不保证其质量或公平性，或者声称您拥有使用数据集的许可证。确定您作为用户是否有权使用数据集许可证下的数据集并引用数据集的合适所有者的权限仍然是用户的责任。

如果您是数据集所有者，并希望更新其任何部分，或者不希望您的数据集包含在此库中，请随时在此处发布问题或提出拉请请求！

如果您是数据集所有者，并希望将您的数据集或模型包括在此库中，请随时在此处发布问题或提出拉请请求！

？引用和作者

如果您发现此存储库有帮助，请随时引用我们的出版物贝尔：用于零摄入信息检索模型的异质基准：

 @inproceedings{
    thakur2021beir,
    title={{BEIR}: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models},
    author={Nandan Thakur and Nils Reimers and Andreas R{"u}ckl{'e} and Abhishek Srivastava and Iryna Gurevych},
    booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2)},
    year={2021},
    url={https://openreview.net/forum?id=wCu6T5xFjeJ}
}

如果您使用Beir排行榜中的任何基线得分，请随时引用我们的出版资源进行酿造Beir：可重复的参考模型和官方的排行榜

 @misc{kamalloo2023resources,
      title={Resources for Brewing BEIR: Reproducible Reference Models and an Official Leaderboard}, 
      author={Ehsan Kamalloo and Nandan Thakur and Carlos Lassance and Xueguang Ma and Jheng-Hong Yang and Jimmy Lin},
      year={2023},
      eprint={2306.07471},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

该存储库的主要贡献者是：

Nandan Thakur，个人网站：Nandan-thakur.com

联系人：Nandan Thakur，[email protected]

请随时向我们发送电子邮件或报告问题，如果某件事被打破（不应该是），或者您还有其他问题。

该存储库包含实验软件，并出于唯一目的发布了有关该出版物的其他背景详细信息。

？合作

由于以下大学和组织的合作努力，贝尔基准已成为可能：

UKP实验室，达姆施塔特技术大学
滑铁卢大学
拥抱脸

？贡献者

感谢所有这些出色的合作对贝尔基准的贡献：

_{南丹·塔库尔（Nandan Thakur）}

_{尼尔斯·雷默斯（Nils Reimers）}

_{Iryna Gurevych}

_吉米·林

_{AndreasRücklé}

_{Abhishek Srivastava}

展开

附加信息

版本 v2.0.0: We are back with bugfixes and improving BEIR after a long break
类型其他源码
更新时间 2025-01-30
大小 455.62KB
来自于 Github

beir

？这是什么？

？安装

？特征

？快速示例

？可用数据集

？附加信息

快速开始

数据集

型号

指标

各种各样的

？免责声明

？引用和作者

？合作

？贡献者

waymo open dataset

SmartTube

Sunamu

MySchedule.py

viptools for eslam

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

termwind

wp functions