이 저장소에는 PIRB (Polid Information Regrieval Benchmark)에 대한 평가 코드가 포함되어 있습니다. 벤치 마크는 41 개의 폴란드 멀티 도메인 정보 검색 작업을 포함합니다. 그 목적은 다양한 특성을 가진 광범위한 문제에 대해 광택 및 다국어 정보 검색 방법을 평가하여 모델의 일반화 능력과 제로 샷 성능을 테스트하는 것입니다. 여기에는 Maupqa, Beir-PL 및 Poleval-2022와 같은 기존 데이터 세트가 포함됩니다. 또한 이전에 출판되지 않은 새로운 데이터 세트를 추가했습니다. "웹 데이터 세트"그룹에는 폴란드 웹 서비스의 실제 질문과 답변이 포함되어 있습니다.
PIRB의 모델 또는 모델 목록을 평가하려면 run_benchmark.py
스크립트를 사용하십시오. 스크립트에 필요한 유일한 매개 변수는 --models_config
이며 모델 구성이 포함 된 JSON 파일을 가리켜 야합니다. 이 저장소는 희소 및 고밀도 리트리버, 하이브리드 검색 및 리트리버 및 재 랭커 모델을 결합한 2 단계 검색 파이프 라인을 포함한 많은 텍스트 검색 방법을 지원합니다. 구성 파일은 각 요소가 평가할 하나의 메소드를 정의하는 JSON 배열이어야합니다. 예를 들어 아래는 BM25 기준을 정의하는 가장 간단한 구성입니다.
[{ "name" : " bm25 " }]
문장 변환기 라이브러리를 기반으로하는 밀집된 인코더는 다음과 같은 방식으로 정의 할 수 있습니다.
[
{
"name" : " sdadas/mmlw-e5-base " ,
"fp16" : true ,
"q_prefix" : " query: " ,
"p_prefix" : " passage: "
}
]
name
속성은 Huggingface 허브의 로컬 경로 또는 경로를 참조해야합니다. 다른 속성은 선택 사항이며 모델의 동작을 제어 할 수 있습니다. 여러 모델을 결합하려면 더 복잡한 구성이 필요합니다. 아래는 밀도가 높은 리트리버와 T5 기반 재 랭커가있는 2 단계 검색 시스템의 예입니다.
[
{
"name" : " plt5-large-msmarco " ,
"type" : " hybrid " ,
"k0" : 100 ,
"strategy" : {
"type" : " reranker " ,
"reranker_name" : " clarin-knext/plt5-large-msmarco " ,
"reranker_type" : " seq2seq " ,
"batch_size" : 32 ,
"max_seq_length" : 512 ,
"template" : " Query: {query} Document: {passage} Relevant: " ,
"yes_token" : " prawda " ,
"no_token" : " fałsz " ,
"bf16" : true
},
"models" : [
{
"name" : " sdadas/mmlw-retrieval-roberta-large " ,
"fp16" : true ,
"q_prefix" : " zapytanie: "
}
]
}
]
메소드 정의의 더 많은 예는이 저장소의 config
디렉토리에서 찾을 수 있습니다.
평가에 사용 된 대부분의 데이터는 공개적으로 제공됩니다. 데이터 세트는 run_benchmark.py
스크립트의 첫 번째 실행시 자동 다운로드됩니다. 유일한 예외는 "웹 데이터 세트"그룹의 Corpora입니다. 액세스하려면 데이터 세트의 의도 된 사용을 설명하는 sdadas에 요청을 보내십시오. 데이터 세트는 연구 목적으로 만 사용될 수 있으며 액세스를 얻은 후 재분배하지 말라고 요청합니다.
순위에 아직 포함되지 않은 모델이있는 경우 모델에 대한 설명으로 https://huggingface.co/spaces/sdadas/pirb/discussions에서 새 문제를 엽니 다. 우리는 그것을 평가하고 리더 보드에 추가하려고 노력할 것입니다. 설명에는 PIRB 형식의 모델에 대한 JSON 구성 또는 모델 사용을 보여주는 짧은 코드 조각을 포함 할 수 있습니다. 공식 평가에서 우리는 다음과 같은 모델 만 고려합니다.
1. 공개적으로 제공됩니다
2. PIRB에 포함 된 데이터 소스에 대해 교육을받지 않았습니다. 데이터 세트가 기차, 평가 및 테스트 부품으로 분할되면 교육 분할을 사용하는 것이 허용됩니다.