Unduh rated ranking evaluator - unduh kode sumber rated ranking evaluator

rated ranking evaluator

Kode sumber lainnya

1.1

Unduh

RRE

Evaluator Peringkat yang Dinilai

Rated Ranking Evaluator (RRE) adalah alat evaluasi kualitas pencarian yang, seperti namanya, mengevaluasi kualitas hasil yang berasal dari infrastruktur pencarian.

Tautan

Evaluasi Kualitas Pencarian: perspektif pengembang
RRE di Haystack EU, London, 2018
RRE di Fosdem 2019
Pengujian Relevansi Langsung Rated Ranking Evaluator (RRE) @Chorus, 2021
Perusahaan Penilai Peringkat Berperingkat: Alat Evaluasi Kualitas Pencarian gratis generasi berikutnya, Padova, 2021
Wiki proyek, terletak di https://github.com/SeaseLtd/rated-ranking-evaluator/wiki
Milis RRE-Pengguna: https://groups.google.com/g/rre-user

Saat ini Apache Solr dan Elasticsearch didukung (lihat dokumentasi untuk versi yang didukung).

Gambar berikut menggambarkan ekosistem RRE:

Ekosistem RRE

Seperti yang Anda lihat, ada banyak modul yang sudah ada dan direncanakan (yang memiliki batas putus-putus)

inti , yaitu perpustakaan pusat yang bertugas menghasilkan hasil evaluasi
API platform pencarian : untuk mengabstraksi (dan mengikat) platform pencarian yang mendasarinya
satu set pengikatan platform pencarian : seperti disebutkan di atas, saat ini kami memiliki dua pengikatan yang tersedia (Apache Solr dan Elasticsearch)
plugin Apache Maven untuk setiap pengikatan platform pencarian yang tersedia: yang memungkinkan untuk memasukkan RRE ke dalam sistem build berbasis Maven
plugin pelaporan Apache Maven : untuk menghasilkan laporan evaluasi dalam format yang dapat dibaca manusia (misalnya PDF, excel), berguna untuk menargetkan pengguna non-teknis
Server RRE : panel kontrol berbasis web sederhana tempat hasil evaluasi diperbarui secara realtime setelah setiap siklus pembuatan.

Konsol RRE

Seluruh sistem telah dibangun sebagai kerangka kerja di mana metrik dapat dikonfigurasi/diaktifkan dan bahkan dipasang (tentu saja, opsi ini memerlukan beberapa pengembangan). Metrik yang merupakan bagian dari rilis RRE saat ini adalah:

Presisi : bagian dari dokumen yang diambil dan relevan.
Ingat : sebagian kecil dari dokumen relevan yang diambil.
Presisi pada 1 : metrik ini menunjukkan apakah hasil teratas pertama dalam daftar relevan atau tidak.
Presisi pada 2 : sama seperti di atas tetapi mempertimbangkan dua hasil pertama.
Presisi pada 3 : sama seperti di atas tetapi mempertimbangkan tiga hasil pertama.
Presisi pada 10 : metrik ini mengukur jumlah hasil yang relevan dalam 10 hasil pencarian teratas.
Peringkat Timbal Balik : merupakan kebalikan perkalian dari peringkat jawaban “benar” pertama: 1 untuk tempat pertama, 1/2 untuk tempat kedua, 1/3 untuk tempat ketiga, dan seterusnya.
Expected Reciprocal Rank (ERR) Perpanjangan dari Reciprocal Rank dengan relevansi bertingkat, mengukur perkiraan jangka waktu timbal balik yang dibutuhkan pengguna untuk menemukan dokumen yang relevan.
Presisi Rata-Rata : area di bawah kurva perolehan presisi.
NDCG di 10 : Keuntungan Kumulatif Diskon yang Dinormalisasi di 10; lihat: https://en.wikipedia.org/w/index.php?title=Discounted_cumulative_gain&section=4#Normalized_DCG
F-Measure : mengukur efektivitas pengambilan sehubungan dengan pengguna yang menganggap β kali lebih penting untuk mengingat daripada presisi. RRE menyediakan tiga instans F-Measure paling populer: F0.5, F1 dan F2

Selain metrik "daun", yang dihitung pada tingkat kueri, RRE menyediakan model data bertumpuk yang kaya, di mana metrik yang sama dapat dikumpulkan di beberapa tingkat. Misalnya, kueri dikelompokkan dalam Grup Kueri dan Grup Kueri dikelompokkan dalam Topik. Artinya, metrik yang sama yang tercantum di atas juga tersedia di tingkat atas dengan menggunakan rata-rata aritmatika sebagai kriteria agregasi. Sebagai konsekuensinya, RRE juga menyediakan metrik berikut:

Rata-rata Presisi : rata-rata presisi rata-rata yang dihitung pada tingkat kueri.
Mean Reciprocal Rank : rata-rata peringkat timbal balik yang dihitung pada tingkat kueri.
semua metrik lain yang tercantum di atas dikumpulkan berdasarkan rata-rata aritmatikanya.

Salah satu hal terpenting yang dapat Anda lihat pada gambar di atas adalah RRE mampu melacak (dan membuat perbandingan) antara beberapa versi sistem yang sedang dievaluasi.

Ini mendorong pendekatan inkremental/iteratif/tidak dapat diubah ketika mengembangkan dan mengembangkan sistem pencarian: dengan asumsi Anda memulai dari versi 1.0, ketika Anda menerapkan beberapa perubahan yang relevan pada konfigurasi Anda, daripada mengubah versi itu, lebih baik mengkloningnya dan menerapkan perubahan ke versi baru (sebut saja 1.1).

Dengan cara ini, ketika pembangunan sistem terjadi, RRE akan menghitung semua yang dijelaskan di atas (yaitu metrik) untuk setiap versi yang tersedia.

Selain itu, ini akan memberikan delta/tren antara versi berikutnya, sehingga Anda bisa segera mendapatkan arah keseluruhan ke mana arah sistem, dalam hal peningkatan relevansi.

delta