Оценщик рейтинга
Rated Ranking Evaluator (RRE) — это инструмент оценки качества поиска, который, как следует из названия, оценивает качество результатов, поступающих из поисковой инфраструктуры.
Ссылки
- Оценка качества поиска: взгляд разработчика
- RRE на Haystack EU, Лондон, 2018 г.
- RRE на выставке Fosdem 2019
- Практическое тестирование релевантности рейтингового оценщика (RRE) @Chorus, 2021 г.
- Rated Ranking Evaluator Enterprise: новое поколение бесплатных инструментов оценки качества поиска, Падуя, 2021 г.
- Wiki проекта, расположенная по адресу https://github.com/SeaseLtd/rated-ranking-evaluator/wiki.
- Список рассылки RRE-User: https://groups.google.com/g/rre-user
На данный момент поддерживаются Apache Solr и Elasticsearch (поддерживаемые версии см. в документации).
На следующем рисунке показана экосистема RRE:
Как видите, уже имеется и запланировано множество модулей (те, что отмечены пунктирной рамкой).
- ядро , то есть центральная библиотека, отвечающая за выдачу результатов оценки.
- API поисковой платформы : для абстрагирования (и привязки) базовой поисковой платформы.
- набор привязок поисковой платформы : как сказано выше, на данный момент у нас есть две доступные привязки (Apache Solr и Elasticsearch)
- плагин Apache Maven для каждой доступной привязки поисковой платформы: который позволяет внедрить RRE в систему сборки на основе Maven.
- плагин отчетов Apache Maven : для создания отчетов об оценке в удобочитаемом формате (например, PDF, Excel), полезный для нетехнических пользователей.
- Сервер RRE : простая веб-панель управления, где результаты оценки обновляются в реальном времени после каждого цикла сборки.
Вся система была построена как основа, в которой метрики можно настраивать/активировать и даже подключать (конечно, этот вариант требует некоторой доработки). Метрики, являющиеся частью текущей версии RRE:
- Точность : доля релевантных извлеченных документов.
- Напомним : доля извлеченных соответствующих документов.
- Точность равна 1 : этот показатель указывает, является ли первый верхний результат в списке релевантным или нет.
- Точность 2 : то же, что и выше, но с учетом первых двух результатов.
- Точность 3 : то же, что и выше, но учитываются первые три результата.
- Точность на уровне 10 : этот показатель измеряет количество релевантных результатов в топ-10 результатов поиска.
- Обратный ранг : это мультипликативное значение, обратное рангу первого «правильного» ответа: 1 для первого места, 1/2 для второго места, 1/3 для третьего и так далее.
- Ожидаемый взаимный ранг (ERR). Расширение взаимного ранга с градуированной релевантностью измеряет ожидаемую обратную продолжительность времени, которое понадобится пользователю, чтобы найти соответствующий документ.
- Средняя точность : область под кривой точности отзыва.
- NDCG в 10 : нормализованная дисконтированная совокупная прибыль в 10; см.: https://en.wikipedia.org/w/index.php?title=Discounted_cumulative_gain§ion=4#Normalized_DCG
- F-мера : она измеряет эффективность поиска по отношению к пользователю, который придает запоминанию в β раз больше значения, чем точности. RRE предоставляет три наиболее популярных экземпляра F-Measure: F0.5, F1 и F2.
Помимо этих «листовых» метрик, которые вычисляются на уровне запроса, RRE предоставляет богатую вложенную модель данных, в которой одна и та же метрика может быть агрегирована на нескольких уровнях. Например, запросы сгруппированы в группы запросов, а группы запросов сгруппированы в темы. Это означает, что те же показатели, перечисленные выше, также доступны на верхних уровнях, используя среднее арифметическое в качестве критерия агрегирования. В результате RRE также предоставляет следующие показатели:
- Средняя средняя точность : среднее значение средней точности, вычисленной на уровне запроса.
- Средний взаимный ранг : среднее значение обратных рангов, рассчитанное на уровне запроса.
- все остальные показатели, перечисленные выше, агрегируются по их среднему арифметическому.
Одна из самых важных вещей, которую вы можете видеть на скриншоте выше, — это то, что RRE может отслеживать (и проводить сравнения) между несколькими версиями оцениваемой системы.
Он поощряет инкрементальный/итеративный/неизменяемый подход при разработке и развитии поисковой системы: если вы начинаете с версии 1.0, то при внесении некоторых соответствующих изменений в вашу конфигурацию вместо изменения этой версии лучше клонировать ее и применить изменения в новой версии (назовем ее 1.1).
Таким образом, когда произойдет сборка системы, RRE вычислит все, что описано выше (т. е. метрики) для каждой доступной версии.
Кроме того, он предоставит разницу/тренд между последующими версиями, так что вы сможете сразу получить общее направление развития системы с точки зрения улучшения релевантности.