評級排名評估員
評級排名評估器 (RRE) 是一種搜尋品質評估工具,顧名思義,它評估來自搜尋基礎設施的結果的品質。
連結
- 搜尋品質評估:開發者的角度
- RRE at Haystack EU,倫敦,2018
- RRE 參加 Fosdem 2019
- 評等排名評估者 (RRE) 動手相關性測試@Chorus,2021
- Rated Ranking Evaluator Enterprise:下一代免費搜尋品質評估工具,帕多瓦,2021 年
- 此專案 Wiki,位於 https://github.com/SeaseLtd/lated-ranking-evaluator/wiki
- RRE-使用者郵件清單:https://groups.google.com/g/rre-user
目前支援 Apache Solr 和 Elasticsearch(請參閱支援版本的文件)。
下圖展示了RRE生態系統:
正如您所看到的,有很多模組已經到位併計劃中(那些帶有虛線邊框的模組)
- 核心,即中央庫,負責產生評估結果
- 搜尋平台 API :用於抽象化(和綁定)底層搜尋平台
- 一組搜尋平台綁定:如上所述,目前我們有兩個可用的綁定(Apache Solr 和 Elasticsearch)
- 每個可用搜尋平台綁定的Apache Maven 插件:允許將 RRE 注入基於 Maven 的建置系統
- Apache Maven 報告外掛:用於以人類可讀的格式(例如 PDF、Excel)產生評估報告,對於針對非技術使用者很有用
- RRE 伺服器:一個簡單的基於 Web 的控制面板,評估結果在每個建置週期後即時更新。
整個系統已建構成一個框架,可以在其中配置/啟動甚至插入指標(當然,此選項需要一些開發)當前 RRE 版本的指標包括:
- 精確度:檢索到的相關文件的比例。
- 召回率:檢索到的相關文件的比例。
- 精確度為 1 :此指標指示清單中第一個頂部結果是否相關。
- 精度為 2 :與上面相同,但它考慮前兩個結果。
- 精度為 3 :與上面相同,但它考慮前三個結果。
- 精確度為 10 :此指標衡量前 10 個搜尋結果中相關結果的數量。
- 倒數排名:它是第一個「正確」答案的排名的乘法倒數:1 表示第一名,1/2 表示第二名,1/3 表示第三名,依此類推。
- 預期倒數排名 (ERR)具有分級相關性的倒數排名的擴展,測量使用者尋找相關文件所需的預期倒數時間長度。
- 平均精確度:精準度-召回率曲線下的面積。
- NDCG at 10 :標準化折現累積收益為 10;請參閱:https://en.wikipedia.org/w/index.php?title=Discounted_cumulative_gain§ion=4#Normalized_DCG
- F-Measure :它衡量對於對召回率的重視程度是精確度的 β 倍的用戶的檢索有效性。 RRE 提供三種最受歡迎的 F-Measure 實例:F0.5、F1 和 F2
除了在查詢層級計算的「葉」指標之外,RRE 還提供了豐富的嵌套資料模型,其中可以在多個層級聚合相同的指標。例如,查詢按查詢組分組,查詢組按主題分組。這意味著上面列出的相同指標也可以在上層使用算術平均值作為聚合標準。因此,RRE 也提供以下指標:
- 平均精度:在查詢等級計算的平均精度的平均值。
- 平均倒數排名:在查詢等級計算的倒數排名的平均值。
- 上面列出的所有其他指標均按算術平均值匯總。
您在上面的螢幕截圖中可以看到的最重要的事情之一是,RRE 能夠追蹤(並進行比較)正在評估的系統的多個版本。
它鼓勵在開發和發展搜尋系統時採用增量/迭代/不可變的方法:假設您從版本 1.0 開始,當您對配置應用一些相關更改時,最好克隆它並應用新版本的更改(我們稱之為1.1)。
這樣,當系統建置發生時,RRE 將為每個可用版本計算上面解釋的所有內容(即指標)。
此外,它將提供後續版本之間的增量/趨勢,因此您可以立即了解系統在相關性改進方面的整體方向。