Evaluador de clasificación calificado
Rated Ranking Evaluator (RRE) es una herramienta de evaluación de la calidad de la búsqueda que, como su nombre indica, evalúa la calidad de los resultados provenientes de una infraestructura de búsqueda.
Campo de golf
- Evaluación de la calidad de la búsqueda: una perspectiva del desarrollador
- RRE en Haystack EU, Londres, 2018
- RRE en Fosdem 2019
- Pruebas prácticas de relevancia del evaluador de clasificación calificado (RRE) @Chorus, 2021
- Rated Ranking Evaluator Enterprise: la próxima generación de herramientas gratuitas de evaluación de la calidad de la búsqueda, Padua, 2021
- La Wiki del proyecto, ubicada en https://github.com/SeaseLtd/ated-ranking-evaluator/wiki
- Lista de correo de usuarios de RRE: https://groups.google.com/g/rre-user
Por el momento, se admiten Apache Solr y Elasticsearch (consulte la documentación para conocer las versiones compatibles).
La siguiente imagen ilustra el ecosistema RRE:
Como puede ver, ya hay muchos módulos implementados y planificados (aquellos con el borde discontinuo)
- un núcleo , que es la biblioteca central que se encarga de producir los resultados de la evaluación
- una API de plataforma de búsqueda : para abstraer (y vincular) la plataforma de búsqueda subyacente
- un conjunto de enlaces de plataforma de búsqueda : como se dijo anteriormente, en este momento tenemos dos enlaces disponibles (Apache Solr y Elasticsearch)
- un complemento Apache Maven para cada enlace de plataforma de búsqueda disponible: que permite inyectar RRE en un sistema de compilación basado en Maven
- un complemento de informes de Apache Maven : para producir informes de evaluación en un formato legible por humanos (por ejemplo, PDF, Excel), útil para dirigirse a usuarios no técnicos
- un servidor RRE : un sencillo panel de control basado en web donde los resultados de la evaluación se actualizan en tiempo real después de cada ciclo de construcción.
Todo el sistema ha sido construido como un marco donde las métricas se pueden configurar/activar e incluso conectar (por supuesto, esta opción requiere cierto desarrollo). Las métricas que forman parte de la versión actual de RRE son:
- Precisión : la fracción de documentos recuperados que son relevantes.
- Recordar : la fracción de documentos relevantes que se recuperan.
- Precisión en 1 : esta métrica indica si el primer resultado superior de la lista es relevante o no.
- Precisión en 2 : igual que arriba pero considera los dos primeros resultados.
- Precisión en 3 : igual que arriba pero considera los tres primeros resultados.
- Precisión en 10 : esta métrica mide la cantidad de resultados relevantes en los 10 primeros resultados de búsqueda.
- Rango Recíproco : es el inverso multiplicativo del rango de la primera respuesta "correcta": 1 para el primer lugar, 1/2 para el segundo lugar, 1/3 para el tercero y así sucesivamente.
- Rango recíproco esperado (ERR) Una extensión del rango recíproco con relevancia graduada, mide el tiempo recíproco esperado que tardará el usuario en encontrar un documento relevante.
- Precisión promedio : el área bajo la curva de recuperación de precisión.
- NDCG en 10 : Ganancia acumulativa descontada normalizada en 10; ver: https://en.wikipedia.org/w/index.php?title=Discounted_cumulative_gain§ion=4#Normalized_DCG
- Medida F : mide la efectividad de la recuperación con respecto a un usuario que concede β veces más importancia a la recuperación que a la precisión. RRE proporciona las tres instancias de F-Measure más populares: F0.5, F1 y F2
Además de esas métricas "hoja", que se calculan a nivel de consulta, RRE proporciona un modelo de datos anidado enriquecido, donde la misma métrica se puede agregar en varios niveles. Por ejemplo, las consultas se agrupan en Grupos de consultas y los Grupos de consultas se agrupan en Temas. Eso significa que las mismas métricas enumeradas anteriormente también están disponibles en los niveles superiores utilizando la media aritmética como criterio de agregación. Como consecuencia de ello, RRE proporciona también las siguientes métricas:
- Precisión promedio media : la media de las precisiones promedio calculadas a nivel de consulta.
- Rango recíproco medio : el promedio de los rangos recíprocos calculados a nivel de consulta.
- todas las demás métricas enumeradas anteriormente agregadas por su media aritmética.
Una de las cosas más importantes que puede ver en la captura de pantalla anterior es que RRE puede realizar un seguimiento (y hacer comparaciones) entre varias versiones del sistema bajo evaluación.
Fomenta un enfoque incremental/iterativo/inmutable al desarrollar y evolucionar un sistema de búsqueda: asumiendo que estás comenzando desde la versión 1.0, cuando aplicas algún cambio relevante a tu configuración, en lugar de cambiar esa versión, es mejor clonarlo y aplicar el cambios en la nueva versión (llamémosla 1.1).
De esta manera, cuando se realice la compilación del sistema, RRE calculará todo lo explicado anteriormente (es decir, las métricas) para cada versión disponible.
Además, proporcionará el delta/tendencia entre versiones posteriores, para que pueda obtener inmediatamente la dirección general hacia donde va el sistema, en términos de mejoras de relevancia.