評価ランキング評価者
Rated Rank Evaluator (RRE) は、名前が示すように、検索インフラストラクチャから得られる結果の品質を評価する検索品質評価ツールです。
リンク
- 検索品質評価: 開発者の視点
- RRE、ヘイスタック EU、ロンドン、2018
- フォスデム 2019 での RRE
- 評価ランキング評価者 (RRE) の実践的な関連性テスト @Chorus、2021 年
- Rated Rank Evaluator Enterprise: 次世代の無料検索品質評価ツール、パドバ、2021 年
- プロジェクト Wiki (https://github.com/SeaseLtd/rated-ranking-evaluator/wiki)
- RRE ユーザー メーリング リスト: https://groups.google.com/g/rre-user
現時点では、Apache Solr と Elasticsearch がサポートされています (サポートされているバージョンについてはドキュメントを参照してください)。
次の図は、RRE エコシステムを示しています。
ご覧のとおり、すでに導入および計画されているモジュールが多数あります (破線の境界線を持つモジュール)。
- コア、つまり評価結果の生成を担当する中央ライブラリ
- 検索プラットフォーム API : 基礎となる検索プラットフォームを抽象化 (およびバインド) するための API
- 検索プラットフォーム バインディングのセット: 上で述べたように、現時点では 2 つの利用可能なバインディング (Apache Solr と Elasticsearch) があります。
- 利用可能な検索プラットフォーム バインディングごとにApache Maven プラグイン: Maven ベースのビルド システムに RRE を挿入できるようにします。
- Apache Maven レポート プラグイン: 人間が判読できる形式 (PDF、Excel など) で評価レポートを作成するため、非技術ユーザーを対象とする場合に便利です
- RRE サーバー: 各ビルド サイクル後に評価結果がリアルタイムで更新される、シンプルな Web ベースのコントロール パネル。
システム全体は、メトリクスを設定/アクティブ化し、プラグインすることもできるフレームワークとして構築されています (もちろん、このオプションにはある程度の開発が必要です)。現在の RRE リリースの一部であるメトリクスは次のとおりです。
- 精度: 取得されたドキュメントのうち関連する部分の割合。
- Recall : 取得された関連ドキュメントの割合。
- 精度 1 : このメトリックは、リストの最初の上位結果が関連しているかどうかを示します。
- 2 の精度: 上記と同じですが、最初の 2 つの結果が考慮されます。
- 3 の精度: 上記と同じですが、最初の 3 つの結果が考慮されます。
- 精度 10 : この指標は、上位 10 位の検索結果内の関連する結果の数を測定します。
- 逆順位: 最初の「正解」の順位の逆乗です。1 位は 1、2 位は 1/2、3 位は 1/3 などとなります。
- 期待相互ランク (ERR)段階的な関連性を備えた相互ランクの拡張で、ユーザーが関連するドキュメントを見つけるまでにかかる予想相互時間を測定します。
- 平均精度: 精度-再現率曲線の下の領域。
- 10 での NDCG : 10 で正規化された割引累積ゲイン。参照: https://en.wikipedia.org/w/index.php?title=Discounted_cumulative_gain§ion=4#Normalized_DCG
- F-Measure : 正確さのβ倍の想起を重視するユーザーに対する検索の有効性を測定します。 RRE は、最も人気のある 3 つの F-Measure インスタンス、F0.5、F1、および F2 を提供します。
クエリ レベルで計算されるこれらの「リーフ」メトリクスに加えて、RRE は豊富な入れ子になったデータ モデルを提供し、同じメトリクスを複数のレベルで集計できます。たとえば、クエリはクエリ グループにグループ化され、クエリ グループはトピックにグループ化されます。つまり、上記にリストされているのと同じメトリクスが、算術平均を集計基準として使用する上位レベルでも利用可能であることを意味します。その結果、RRE は次のメトリクスも提供します。
- 平均平均精度: クエリ レベルで計算された平均精度の平均。
- 平均逆ランク: クエリ レベルで計算された逆ランクの平均。
- 上記にリストされた他のすべてのメトリクスは、算術平均によって集計されます。
上のスクリーンショットでわかる最も重要なことの 1 つは、RRE が評価中のシステムの複数のバージョン間を追跡 (および比較) できることです。
これは、検索システムを開発および進化させる際に、増分/反復/不変のアプローチを奨励します。バージョン 1.0 から開始すると仮定すると、構成に関連する変更を適用するときは、そのバージョンを変更するのではなく、そのバージョンを複製して、新しいバージョン (1.1 と呼びます) に変更されます。
このようにして、システムの構築が行われると、RRE は利用可能なバージョンごとに上記で説明したすべて (つまりメトリクス) を計算します。
さらに、後続のバージョン間のデルタ/トレンドも提供されるため、関連性の向上という観点から、システムが向かう全体的な方向性をすぐに把握できます。