Repositori ini berisi kode evaluasi untuk Benchmark Pengambilan Informasi Polandia (PIRB). Benchmark mencakup 41 tugas pengambilan informasi multidomain Polandia. Tujuannya adalah untuk mengevaluasi metode pengambilan informasi multibahasa dan multibahasa pada berbagai masalah dengan karakteristik yang berbeda, sehingga menguji kemampuan generalisasi model dan kinerja zero-shot mereka. Ini termasuk set data yang sudah ada sebelumnya seperti MAUPQA, BEIR-PL dan POLEVAL-2022. Kami juga telah menambahkan dataset baru yang sebelumnya tidak dipublikasikan. Grup "Dataset Web" berisi pertanyaan dan jawaban nyata dari layanan web Polandia.
Untuk mengevaluasi model atau daftar model di PIRB, gunakan skrip run_benchmark.py
. Satu -satunya parameter yang diperlukan untuk skrip adalah --models_config
, yang harus menunjuk ke file JSON yang berisi konfigurasi model. Repositori mendukung banyak metode pengambilan teks, termasuk retriever yang jarang dan padat, pengambilan hibrida, serta pipa pengambilan dua tahap yang menggabungkan model retriever dan reranker. File konfigurasi harus berupa array JSON di mana setiap elemen mendefinisikan satu metode untuk dievaluasi. Misalnya, di bawah ini adalah konfigurasi paling sederhana yang mendefinisikan baseline BM25:
[{ "name" : " bm25 " }]
Encoder padat berdasarkan perpustakaan transformer kalimat dapat didefinisikan dengan cara berikut:
[
{
"name" : " sdadas/mmlw-e5-base " ,
"fp16" : true ,
"q_prefix" : " query: " ,
"p_prefix" : " passage: "
}
]
Atribut name
harus merujuk ke jalur atau jalur lokal di hub Huggingface. Atribut lain adalah opsional, dan memungkinkan untuk mengontrol perilaku model. Metode menggabungkan beberapa model membutuhkan konfigurasi yang lebih kompleks. Di bawah ini adalah contoh sistem pengambilan dua tahap dengan retriever padat dan reranker berbasis T5:
[
{
"name" : " plt5-large-msmarco " ,
"type" : " hybrid " ,
"k0" : 100 ,
"strategy" : {
"type" : " reranker " ,
"reranker_name" : " clarin-knext/plt5-large-msmarco " ,
"reranker_type" : " seq2seq " ,
"batch_size" : 32 ,
"max_seq_length" : 512 ,
"template" : " Query: {query} Document: {passage} Relevant: " ,
"yes_token" : " prawda " ,
"no_token" : " fałsz " ,
"bf16" : true
},
"models" : [
{
"name" : " sdadas/mmlw-retrieval-roberta-large " ,
"fp16" : true ,
"q_prefix" : " zapytanie: "
}
]
}
]
Lebih banyak contoh definisi metode dapat ditemukan di direktori config
di repositori ini.
Sebagian besar data yang digunakan dalam evaluasi tersedia untuk umum. Dataset akan diunduh secara otomatis pada run pertama skrip run_benchmark.py
. Satu -satunya pengecualian adalah korpora dari grup "dataset web". Jika Anda ingin mengaksesnya, silakan kirim permintaan ke SDADAS di OPI.org.pl, menjelaskan penggunaan dataset yang Anda maksudkan. Harap dicatat bahwa dataset hanya dapat digunakan untuk tujuan penelitian dan kami meminta untuk tidak mendistribusikannya kembali setelah mendapatkan akses.
Jika Anda memiliki model yang belum dimasukkan dalam peringkat, buka edisi baru di https://huggingface.co/spaces/sdadas/pirb/discussions dengan deskripsi model Anda. Kami akan mencoba mengevaluasinya dan menambahkannya ke papan peringkat. Dalam deskripsi Anda dapat menyertakan konfigurasi JSON untuk model dalam format PIRB atau fragmen kode pendek yang menggambarkan penggunaan model. Dalam evaluasi resmi, kami hanya mempertimbangkan model bahwa:
1. Tersedia untuk umum
2. Belum dilatih pada sumber data yang termasuk dalam PIRB. Untuk dataset yang terpecah menjadi kereta, evaluasi dan suku cadang tes, penggunaan perpecahan pelatihan dapat diterima.