ที่เก็บนี้มีรหัสการประเมินผลสำหรับเกณฑ์มาตรฐานการดึงข้อมูลโปแลนด์ (PIRB) เกณฑ์มาตรฐานครอบคลุม 41 งานการดึงข้อมูลหลายโดเมนโปแลนด์ วัตถุประสงค์ของมันคือการประเมินวิธีการดึงข้อมูลภาษาโปแลนด์และหลายภาษาเกี่ยวกับปัญหาที่หลากหลายเกี่ยวกับลักษณะที่แตกต่างกันดังนั้นการทดสอบความสามารถในการวางนัยทั่วไปของแบบจำลองและประสิทธิภาพการยิงแบบศูนย์ มันมีชุดข้อมูลที่มีอยู่แล้วเช่น MAUPQA, BEIR-PL และ POLEVAL-20122 เราได้เพิ่มชุดข้อมูลใหม่ที่ไม่ได้เผยแพร่ก่อนหน้านี้ กลุ่ม "ชุดข้อมูลเว็บ" มีคำถามและคำตอบจริงจากบริการเว็บโปแลนด์
ในการประเมินโมเดลหรือรายการโมเดลบน PIRB ให้ใช้สคริปต์ run_benchmark.py
พารามิเตอร์ที่ต้องการเพียงอย่างเดียวสำหรับสคริปต์คือ --models_config
ซึ่งควรชี้ไปที่ไฟล์ JSON ที่มีการกำหนดค่าของรุ่น ที่เก็บรองรับวิธีการดึงข้อความจำนวนมากรวมถึงการดึงแบบเบาบางและหนาแน่นการดึงไฮบริดรวมถึงท่อดึงสองขั้นตอนที่รวมโมเดล Retriever และ Reranker ไฟล์การกำหนดค่าควรเป็นอาร์เรย์ JSON ซึ่งแต่ละองค์ประกอบกำหนดวิธีหนึ่งที่จะประเมิน ตัวอย่างเช่นด้านล่างคือการกำหนดค่าที่ง่ายที่สุดซึ่งกำหนดพื้นฐาน BM25:
[{ "name" : " bm25 " }]
ตัวเข้ารหัสหนาแน่นตามห้องสมุดการแปลงประโยคสามารถกำหนดด้วยวิธีต่อไปนี้:
[
{
"name" : " sdadas/mmlw-e5-base " ,
"fp16" : true ,
"q_prefix" : " query: " ,
"p_prefix" : " passage: "
}
]
แอตทริบิวต์ name
ควรอ้างถึงเส้นทางท้องถิ่นหรือเส้นทางบนฮับ HuggingFace คุณลักษณะอื่น ๆ เป็นทางเลือกและอนุญาตให้ควบคุมพฤติกรรมของโมเดล วิธีการรวมหลายรุ่นต้องใช้การกำหนดค่าที่ซับซ้อนมากขึ้น ด้านล่างนี้เป็นตัวอย่างของระบบดึงข้อมูลสองขั้นตอนที่มี Retriever หนาแน่นและ Reranker ที่ใช้ T5:
[
{
"name" : " plt5-large-msmarco " ,
"type" : " hybrid " ,
"k0" : 100 ,
"strategy" : {
"type" : " reranker " ,
"reranker_name" : " clarin-knext/plt5-large-msmarco " ,
"reranker_type" : " seq2seq " ,
"batch_size" : 32 ,
"max_seq_length" : 512 ,
"template" : " Query: {query} Document: {passage} Relevant: " ,
"yes_token" : " prawda " ,
"no_token" : " fałsz " ,
"bf16" : true
},
"models" : [
{
"name" : " sdadas/mmlw-retrieval-roberta-large " ,
"fp16" : true ,
"q_prefix" : " zapytanie: "
}
]
}
]
ตัวอย่างเพิ่มเติมของคำจำกัดความของวิธีการสามารถพบได้ในไดเรกทอรี config
ในที่เก็บนี้
ข้อมูลส่วนใหญ่ที่ใช้ในการประเมินผลเปิดเผยต่อสาธารณะ ชุดข้อมูลจะถูกดาวน์โหลดโดยอัตโนมัติเมื่อการเรียกใช้ครั้งแรกของสคริปต์ run_benchmark.py
ข้อยกเว้นเพียงอย่างเดียวคือ Corpora จากกลุ่ม "ชุดข้อมูลเว็บ" หากคุณต้องการเข้าถึงพวกเขาโปรดส่งคำขอไปยัง SDADAS ที่ opi.org.pl อธิบายการใช้ชุดข้อมูลที่คุณตั้งใจไว้ โปรดทราบว่าชุดข้อมูลสามารถใช้เพื่อวัตถุประสงค์ในการวิจัยเท่านั้นและเราขอไม่แจกจ่ายใหม่หลังจากได้รับการเข้าถึง
หากคุณมีแบบจำลองที่ยังไม่ได้รวมอยู่ในการจัดอันดับให้เปิดปัญหาใหม่ที่ https://huggingface.co/spaces/sdadas/pirb/discussions พร้อมคำอธิบายของโมเดลของคุณ เราจะพยายามประเมินและเพิ่มลงในกระดานผู้นำ ในคำอธิบายคุณสามารถรวมการกำหนดค่า JSON สำหรับโมเดลในรูปแบบ PIRB หรือแฟรกเมนต์รหัสสั้นที่แสดงการใช้โมเดล ในการประเมินอย่างเป็นทางการเราจะพิจารณาเฉพาะรูปแบบที่:
1. มีอยู่สาธารณะ
2. ยังไม่ได้รับการฝึกฝนเกี่ยวกับแหล่งข้อมูลที่รวมอยู่ใน Pirb สำหรับชุดข้อมูลที่แบ่งออกเป็นรถไฟการประเมินและชิ้นส่วนทดสอบการใช้การแยกการฝึกอบรมเป็นที่ยอมรับ