該存儲庫包含用於波蘭信息檢索基準(PIRB)的評估代碼。該基準涵蓋41個波蘭多域信息檢索任務。它的目的是評估具有不同特徵的各種問題的波蘭語和多語言信息檢索方法,從而測試模型的概括能力及其零拍攝的性能。它包括諸如MAUPQA,BEIR-PL和POLEVAL-2022等預先存在的數據集。我們還添加了新的未發表的數據集。 “ Web數據集”組包含波蘭Web服務中的真實問題和答案。
要評估PIRB上的模型或模型列表,請使用run_benchmark.py
腳本。腳本的唯一必需參數是--models_config
,該參數應指向包含模型配置的JSON文件。這些存儲庫支持許多文本檢索方法,包括稀疏和密集的檢索器,混合檢索以及將檢索器和reranker模型結合的兩階段檢索管道。配置文件應為JSON數組,每個元素都定義要評估的方法。例如,以下是定義BM25基線的最簡單配置:
[{ "name" : " bm25 " }]
基於句子轉換器庫的密集編碼器可以通過以下方式定義:
[
{
"name" : " sdadas/mmlw-e5-base " ,
"fp16" : true ,
"q_prefix" : " query: " ,
"p_prefix" : " passage: "
}
]
name
屬性應參考HuggingFace Hub上的本地路徑或路徑。其他屬性是可選的,並允許控制模型的行為。結合多個模型的方法需要更複雜的配置。以下是具有密集的獵犬和基於T5的Reranker的兩階段檢索系統的示例:
[
{
"name" : " plt5-large-msmarco " ,
"type" : " hybrid " ,
"k0" : 100 ,
"strategy" : {
"type" : " reranker " ,
"reranker_name" : " clarin-knext/plt5-large-msmarco " ,
"reranker_type" : " seq2seq " ,
"batch_size" : 32 ,
"max_seq_length" : 512 ,
"template" : " Query: {query} Document: {passage} Relevant: " ,
"yes_token" : " prawda " ,
"no_token" : " fałsz " ,
"bf16" : true
},
"models" : [
{
"name" : " sdadas/mmlw-retrieval-roberta-large " ,
"fp16" : true ,
"q_prefix" : " zapytanie: "
}
]
}
]
在此存儲庫中的config
目錄中可以找到更多方法定義的示例。
評估中使用的大多數數據都是公開可用的。該數據集將在run_benchmark.py
腳本的第一次運行後自動下載。唯一的例外是“ Web數據集”組中的CORPORA。如果您想訪問它們,請通過opi.org.pl將請求發送到SDADAS,以描述您對數據集的預期使用。請注意,數據集只能用於研究目的,我們要求在獲得訪問後不要重新分配它們。
如果您有一個尚未包含在排名中的模型,請在https://huggingface.co/spaces/sdadas/pirb/discussions上打開一個新問題,並描述您的模型。我們將嘗試對其進行評估,並將其添加到排行榜中。在描述中,您可以在PIRB格式中包含模型的JSON配置,也可以在說明模型使用的簡短代碼片段中包含一個簡短的代碼片段。在官方評估中,我們僅考慮:
1。公開可用
2。尚未對PIRB中包含的數據源進行培訓。對於分為火車,評估和測試零件的數據集,可以接受訓練拆分的使用。