Этот репозиторий содержит код оценки для базового показателя поиска информации (PIRB). Трингум охватывает 41 польсную многодоменную информацию о поиске информации. Его цель состоит в том, чтобы оценить польские и многоязычные методы поиска информации на широком спектре проблем с различными характеристиками, тем самым проверяя способность моделей обобщения и их нулевые выстрелы. Он включает в себя уже существующие наборы данных, такие как Maupqa, Beir-Pl и Poleval-2022. Мы также добавили новые, ранее неопубликованные наборы данных. Группа «веб -данных» содержит реальные вопросы и ответы от польских веб -сервисов.
Чтобы оценить модель или список моделей на PIRB, используйте скрипт run_benchmark.py
. Единственный требуемый параметр для скрипта --models_config
, который должен указывать на файл JSON, содержащий конфигурацию моделей. Репозиторий поддерживает многие методы поиска текста, в том числе разреженные и плотные ретриверы, гибридный поиск, а также двухэтапные конвейеры, объединяющие модели ретриверов и реранкеров. Файл конфигурации должен быть массивом JSON, в котором каждый элемент определяет один метод, который должен быть оценен. Например, ниже - самая простая конфигурация, которая определяет базовую линию BM25:
[{ "name" : " bm25 " }]
Плотные кодеры, основанные на библиотеке трансформаторов, могут быть определены следующим образом:
[
{
"name" : " sdadas/mmlw-e5-base " ,
"fp16" : true ,
"q_prefix" : " query: " ,
"p_prefix" : " passage: "
}
]
Атрибут name
должен относиться к локальному пути или пути в центре Huggingface. Другие атрибуты необязательны и позволяют контролировать поведение модели. Методы, объединяющие несколько моделей, требуют более сложной конфигурации. Ниже приведен пример двухэтапной системы поиска с плотным ретривером и Reranker на основе T5:
[
{
"name" : " plt5-large-msmarco " ,
"type" : " hybrid " ,
"k0" : 100 ,
"strategy" : {
"type" : " reranker " ,
"reranker_name" : " clarin-knext/plt5-large-msmarco " ,
"reranker_type" : " seq2seq " ,
"batch_size" : 32 ,
"max_seq_length" : 512 ,
"template" : " Query: {query} Document: {passage} Relevant: " ,
"yes_token" : " prawda " ,
"no_token" : " fałsz " ,
"bf16" : true
},
"models" : [
{
"name" : " sdadas/mmlw-retrieval-roberta-large " ,
"fp16" : true ,
"q_prefix" : " zapytanie: "
}
]
}
]
Больше примеров определений методов можно найти в каталоге config
в этом репозитории.
Большая часть данных, используемых в оценке, является общедоступной. Наборы данных будут автоматически загружены при первом заезде сценария run_benchmark.py
. Единственным исключением является корпуса из группы «веб -данных». Если вы хотите получить доступ к ним, отправьте запрос в SDADAS на OPI.org.pl, описывая ваше предполагаемое использование наборов данных. Обратите внимание, что наборы данных могут использоваться только в исследовательских целях, и мы просим не перераспределять их после получения доступа.
Если у вас есть модель, которая еще не была включена в рейтинг, откройте новую проблему по адресу https://huggingface.co/spaces/sdadas/pirb/discussions с описанием вашей модели. Мы постараемся оценить его и добавить в таблицу лидеров. В описание вы можете включить конфигурацию JSON для модели в формате PIRB или короткий фрагмент кода, иллюстрирующий использование модели. В официальной оценке мы рассматриваем только модели, которые:
1. публично доступны
2. не были обучены источникам данных, включенным в PIRB. Для наборов данных, разделенных на поезда, оценка и тестирование деталей, использование тренировочного разделения приемлемо.