このリポジトリには、ポリッシュ情報検索ベンチマーク(PIRB)の評価コードが含まれています。ベンチマークは41ポーランドのマルチドメイン情報検索タスクをカバーしています。その目的は、さまざまな特性を備えた広範な問題に関するポーランドと多言語の情報検索方法を評価し、モデルの一般化能力とゼロショットパフォーマンスをテストすることです。これには、Maupqa、Beir-Pl、Poreval-2022などの既存のデータセットが含まれています。また、以前に公開されていない新しいデータセットも追加しました。 「Webデータセット」グループには、ポーランドのWebサービスからの実際の質問と回答が含まれています。
PIRBのモデルまたはモデルのリストを評価するには、 run_benchmark.py
スクリプトを使用します。スクリプトに必要なパラメーターは--models_config
で、モデルの構成を含むJSONファイルを指す必要があります。リポジトリは、レトリバーとレランカーモデルを組み合わせた2段階の検索パイプラインだけでなく、スパースおよび密度の高いレトリバー、ハイブリッド検索など、多くのテキスト検索方法をサポートしています。構成ファイルは、各要素が評価される1つのメソッドを定義するJSONアレイである必要があります。たとえば、以下はBM25ベースラインを定義する最も単純な構成です。
[{ "name" : " bm25 " }]
Sente-Transformers Libraryに基づく密なエンコーダーは、次の方法で定義できます。
[
{
"name" : " sdadas/mmlw-e5-base " ,
"fp16" : true ,
"q_prefix" : " query: " ,
"p_prefix" : " passage: "
}
]
name
属性は、ハグFaceハブのローカルパスまたはパスを参照する必要があります。他の属性はオプションであり、モデルの動作を制御できます。複数のモデルを組み合わせる方法には、より複雑な構成が必要です。以下は、密なレトリバーとT5ベースの再lankerを備えた2段階検索システムの例です。
[
{
"name" : " plt5-large-msmarco " ,
"type" : " hybrid " ,
"k0" : 100 ,
"strategy" : {
"type" : " reranker " ,
"reranker_name" : " clarin-knext/plt5-large-msmarco " ,
"reranker_type" : " seq2seq " ,
"batch_size" : 32 ,
"max_seq_length" : 512 ,
"template" : " Query: {query} Document: {passage} Relevant: " ,
"yes_token" : " prawda " ,
"no_token" : " fałsz " ,
"bf16" : true
},
"models" : [
{
"name" : " sdadas/mmlw-retrieval-roberta-large " ,
"fp16" : true ,
"q_prefix" : " zapytanie: "
}
]
}
]
メソッド定義のその他の例は、このリポジトリのconfig
ディレクトリにあります。
評価で使用されるデータのほとんどは公開されています。データセットは、 run_benchmark.py
スクリプトの最初の実行時に自動的にダウンロードされます。唯一の例外は、「Webデータセット」グループのコーパスです。それらにアクセスしたい場合は、opi.org.plのsdadasにリクエストを送信して、データセットの使用について説明してください。データセットは調査目的でのみ使用でき、アクセスを取得した後に再配布しないように要求してください。
まだランキングに含まれていないモデルがある場合は、https://huggingface.co/spaces/sdadas/pirb/discussionsで新しい問題をモデルの説明で開きます。私たちはそれを評価し、それをリーダーボードに追加しようとします。説明には、PIRB形式のモデルのJSON構成またはモデルの使用を示す短いコードフラグメントを含めることができます。公式評価では、次のモデルのみを検討します。
1。公開されています
2。PIRBに含まれるデータソースの訓練を受けていません。データセットがトレーニング、評価、テスト部品に分割された場合、トレーニングスプリットの使用は許容されます。