评级排名评估员
评级排名评估器 (RRE) 是一种搜索质量评估工具,顾名思义,它评估来自搜索基础设施的结果的质量。
链接
- 搜索质量评估:开发者的角度
- RRE at Haystack EU,伦敦,2018
- RRE 参加 Fosdem 2019
- 评级排名评估者 (RRE) 动手相关性测试@Chorus,2021
- Rated Ranking Evaluator Enterprise:下一代免费搜索质量评估工具,帕多瓦,2021 年
- 该项目 Wiki,位于 https://github.com/SeaseLtd/lated-ranking-evaluator/wiki
- RRE-用户邮件列表:https://groups.google.com/g/rre-user
目前支持 Apache Solr 和 Elasticsearch(请参阅支持版本的文档)。
下图展示了RRE生态系统:
正如您所看到的,有很多模块已经到位并计划中(那些带有虚线边框的模块)
- 核心,即中央库,负责产生评价结果
- 搜索平台 API :用于抽象(和绑定)底层搜索平台
- 一组搜索平台绑定:如上所述,目前我们有两个可用的绑定(Apache Solr 和 Elasticsearch)
- 每个可用搜索平台绑定的Apache Maven 插件:允许将 RRE 注入基于 Maven 的构建系统
- Apache Maven 报告插件:用于以人类可读的格式(例如 PDF、Excel)生成评估报告,对于针对非技术用户很有用
- RRE 服务器:一个简单的基于 Web 的控制面板,评估结果在每个构建周期后实时更新。
整个系统已构建为一个框架,可以在其中配置/激活甚至插入指标(当然,此选项需要一些开发)当前 RRE 版本的指标包括:
- 精度:检索到的相关文档的比例。
- 召回率:检索到的相关文档的比例。
- 精度为 1 :此指标指示列表中第一个顶部结果是否相关。
- 精度为 2 :与上面相同,但它考虑前两个结果。
- 精度为 3 :与上面相同,但它考虑前三个结果。
- 精度为 10 :该指标衡量前 10 个搜索结果中相关结果的数量。
- 倒数排名:它是第一个“正确”答案的排名的乘法倒数:1 表示第一名,1/2 表示第二名,1/3 表示第三名,依此类推。
- 预期倒数排名 (ERR)具有分级相关性的倒数排名的扩展,测量用户查找相关文档所需的预期倒数时间长度。
- 平均精度:精度-召回率曲线下的面积。
- NDCG at 10 :标准化贴现累积增益为 10;请参阅:https://en.wikipedia.org/w/index.php?title=Discounted_cumulative_gain§ion=4#Normalized_DCG
- F-Measure :它衡量对于对召回率的重视程度是精确度的 β 倍的用户的检索有效性。 RRE 提供三种最流行的 F-Measure 实例:F0.5、F1 和 F2
除了在查询级别计算的“叶”指标之外,RRE 还提供了丰富的嵌套数据模型,其中可以在多个级别聚合相同的指标。例如,查询按查询组分组,查询组按主题分组。这意味着上面列出的相同指标也可以在上层使用算术平均值作为聚合标准。因此,RRE 还提供以下指标:
- 平均精度:在查询级别计算的平均精度的平均值。
- 平均倒数排名:在查询级别计算的倒数排名的平均值。
- 上面列出的所有其他指标均按算术平均值汇总。
您在上面的屏幕截图中可以看到的最重要的事情之一是,RRE 能够跟踪(并进行比较)正在评估的系统的多个版本。
它鼓励在开发和发展搜索系统时采用增量/迭代/不可变的方法:假设您从版本 1.0 开始,当您对配置应用一些相关更改时,最好克隆它并应用新版本的更改(我们称之为 1.1)。
这样,当系统构建发生时,RRE 将为每个可用版本计算上面解释的所有内容(即指标)。
此外,它将提供后续版本之间的增量/趋势,因此您可以立即了解系统在相关性改进方面的总体方向。