该存储库包含用于波兰信息检索基准(PIRB)的评估代码。该基准涵盖41个波兰多域信息检索任务。它的目的是评估具有不同特征的各种问题的波兰语和多语言信息检索方法,从而测试模型的概括能力及其零拍摄的性能。它包括诸如MAUPQA,BEIR-PL和POLEVAL-2022等预先存在的数据集。我们还添加了新的未发表的数据集。 “ Web数据集”组包含波兰Web服务中的真实问题和答案。
要评估PIRB上的模型或模型列表,请使用run_benchmark.py
脚本。脚本的唯一必需参数是--models_config
,该参数应指向包含模型配置的JSON文件。这些存储库支持许多文本检索方法,包括稀疏和密集的检索器,混合检索以及将检索器和reranker模型结合的两阶段检索管道。配置文件应为JSON数组,每个元素都定义要评估的方法。例如,以下是定义BM25基线的最简单配置:
[{ "name" : " bm25 " }]
基于句子转换器库的密集编码器可以通过以下方式定义:
[
{
"name" : " sdadas/mmlw-e5-base " ,
"fp16" : true ,
"q_prefix" : " query: " ,
"p_prefix" : " passage: "
}
]
name
属性应参考HuggingFace Hub上的本地路径或路径。其他属性是可选的,并允许控制模型的行为。结合多个模型的方法需要更复杂的配置。以下是具有密集的猎犬和基于T5的Reranker的两阶段检索系统的示例:
[
{
"name" : " plt5-large-msmarco " ,
"type" : " hybrid " ,
"k0" : 100 ,
"strategy" : {
"type" : " reranker " ,
"reranker_name" : " clarin-knext/plt5-large-msmarco " ,
"reranker_type" : " seq2seq " ,
"batch_size" : 32 ,
"max_seq_length" : 512 ,
"template" : " Query: {query} Document: {passage} Relevant: " ,
"yes_token" : " prawda " ,
"no_token" : " fałsz " ,
"bf16" : true
},
"models" : [
{
"name" : " sdadas/mmlw-retrieval-roberta-large " ,
"fp16" : true ,
"q_prefix" : " zapytanie: "
}
]
}
]
在此存储库中的config
目录中可以找到更多方法定义的示例。
评估中使用的大多数数据都是公开可用的。该数据集将在run_benchmark.py
脚本的第一次运行后自动下载。唯一的例外是“ Web数据集”组中的CORPORA。如果您想访问它们,请通过opi.org.pl将请求发送到SDADAS,以描述您对数据集的预期使用。请注意,数据集只能用于研究目的,我们要求在获得访问后不要重新分配它们。
如果您有一个尚未包含在排名中的模型,请在https://huggingface.co/spaces/sdadas/pirb/discussions上打开一个新问题,并描述您的模型。我们将尝试对其进行评估,并将其添加到排行榜中。在描述中,您可以在PIRB格式中包含模型的JSON配置,也可以在说明模型使用的简短代码片段中包含一个简短的代码片段。在官方评估中,我们仅考虑:
1。公开可用
2。尚未对PIRB中包含的数据源进行培训。对于分为火车,评估和测试零件的数据集,可以接受训练拆分的使用。