Evaluator Peringkat yang Dinilai
Rated Ranking Evaluator (RRE) adalah alat evaluasi kualitas pencarian yang, seperti namanya, mengevaluasi kualitas hasil yang berasal dari infrastruktur pencarian.
Tautan
- Evaluasi Kualitas Pencarian: perspektif pengembang
- RRE di Haystack EU, London, 2018
- RRE di Fosdem 2019
- Pengujian Relevansi Langsung Rated Ranking Evaluator (RRE) @Chorus, 2021
- Perusahaan Penilai Peringkat Berperingkat: Alat Evaluasi Kualitas Pencarian gratis generasi berikutnya, Padova, 2021
- Wiki proyek, terletak di https://github.com/SeaseLtd/rated-ranking-evaluator/wiki
- Milis RRE-Pengguna: https://groups.google.com/g/rre-user
Saat ini Apache Solr dan Elasticsearch didukung (lihat dokumentasi untuk versi yang didukung).
Gambar berikut menggambarkan ekosistem RRE:
Seperti yang Anda lihat, ada banyak modul yang sudah ada dan direncanakan (yang memiliki batas putus-putus)
- inti , yaitu perpustakaan pusat yang bertugas menghasilkan hasil evaluasi
- API platform pencarian : untuk mengabstraksi (dan mengikat) platform pencarian yang mendasarinya
- satu set pengikatan platform pencarian : seperti disebutkan di atas, saat ini kami memiliki dua pengikatan yang tersedia (Apache Solr dan Elasticsearch)
- plugin Apache Maven untuk setiap pengikatan platform pencarian yang tersedia: yang memungkinkan untuk memasukkan RRE ke dalam sistem build berbasis Maven
- plugin pelaporan Apache Maven : untuk menghasilkan laporan evaluasi dalam format yang dapat dibaca manusia (misalnya PDF, excel), berguna untuk menargetkan pengguna non-teknis
- Server RRE : panel kontrol berbasis web sederhana tempat hasil evaluasi diperbarui secara realtime setelah setiap siklus pembuatan.
Seluruh sistem telah dibangun sebagai kerangka kerja di mana metrik dapat dikonfigurasi/diaktifkan dan bahkan dipasang (tentu saja, opsi ini memerlukan beberapa pengembangan). Metrik yang merupakan bagian dari rilis RRE saat ini adalah:
- Presisi : bagian dari dokumen yang diambil dan relevan.
- Ingat : sebagian kecil dari dokumen relevan yang diambil.
- Presisi pada 1 : metrik ini menunjukkan apakah hasil teratas pertama dalam daftar relevan atau tidak.
- Presisi pada 2 : sama seperti di atas tetapi mempertimbangkan dua hasil pertama.
- Presisi pada 3 : sama seperti di atas tetapi mempertimbangkan tiga hasil pertama.
- Presisi pada 10 : metrik ini mengukur jumlah hasil yang relevan dalam 10 hasil pencarian teratas.
- Peringkat Timbal Balik : merupakan kebalikan perkalian dari peringkat jawaban “benar” pertama: 1 untuk tempat pertama, 1/2 untuk tempat kedua, 1/3 untuk tempat ketiga, dan seterusnya.
- Expected Reciprocal Rank (ERR) Perpanjangan dari Reciprocal Rank dengan relevansi bertingkat, mengukur perkiraan jangka waktu timbal balik yang dibutuhkan pengguna untuk menemukan dokumen yang relevan.
- Presisi Rata-Rata : area di bawah kurva perolehan presisi.
- NDCG di 10 : Keuntungan Kumulatif Diskon yang Dinormalisasi di 10; lihat: https://en.wikipedia.org/w/index.php?title=Discounted_cumulative_gain§ion=4#Normalized_DCG
- F-Measure : mengukur efektivitas pengambilan sehubungan dengan pengguna yang menganggap β kali lebih penting untuk mengingat daripada presisi. RRE menyediakan tiga instans F-Measure paling populer: F0.5, F1 dan F2
Selain metrik "daun", yang dihitung pada tingkat kueri, RRE menyediakan model data bertumpuk yang kaya, di mana metrik yang sama dapat dikumpulkan di beberapa tingkat. Misalnya, kueri dikelompokkan dalam Grup Kueri dan Grup Kueri dikelompokkan dalam Topik. Artinya, metrik yang sama yang tercantum di atas juga tersedia di tingkat atas dengan menggunakan rata-rata aritmatika sebagai kriteria agregasi. Sebagai konsekuensinya, RRE juga menyediakan metrik berikut:
- Rata-rata Presisi : rata-rata presisi rata-rata yang dihitung pada tingkat kueri.
- Mean Reciprocal Rank : rata-rata peringkat timbal balik yang dihitung pada tingkat kueri.
- semua metrik lain yang tercantum di atas dikumpulkan berdasarkan rata-rata aritmatikanya.
Salah satu hal terpenting yang dapat Anda lihat pada gambar di atas adalah RRE mampu melacak (dan membuat perbandingan) antara beberapa versi sistem yang sedang dievaluasi.
Ini mendorong pendekatan inkremental/iteratif/tidak dapat diubah ketika mengembangkan dan mengembangkan sistem pencarian: dengan asumsi Anda memulai dari versi 1.0, ketika Anda menerapkan beberapa perubahan yang relevan pada konfigurasi Anda, daripada mengubah versi itu, lebih baik mengkloningnya dan menerapkan perubahan ke versi baru (sebut saja 1.1).
Dengan cara ini, ketika pembangunan sistem terjadi, RRE akan menghitung semua yang dijelaskan di atas (yaitu metrik) untuk setiap versi yang tersedia.
Selain itu, ini akan memberikan delta/tren antara versi berikutnya, sehingga Anda bisa segera mendapatkan arah keseluruhan ke mana arah sistem, dalam hal peningkatan relevansi.