Этот репозиторий содержит набор данных и код для бумаги WICE: реальное мир для претензий в Википедии (EMNLP 2023).
Авторы: Рё Камои, Таня Гоял, Хуан Диего Родригес, Грег Дурретт
@inproceedings { kamoi-etal-2023-wice ,
title = " {W}i{CE}: Real-World Entailment for Claims in {W}ikipedia " ,
author = " Kamoi, Ryo and
Goyal, Tanya and
Rodriguez, Juan and
Durrett, Greg " ,
editor = " Bouamor, Houda and
Pino, Juan and
Bali, Kalika " ,
booktitle = " Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing " ,
month = dec,
year = " 2023 " ,
address = " Singapore " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2023.emnlp-main.470 " ,
pages = " 7561--7583 " ,
}
Wice-это мелкозернистый текстовый набор данных, основанный на естественных претензиях и парах доказательств, извлеченных из Википедии. Учитывая предложение в Википедии и соответствующие статьи (ы), которые он цитирует, мы аннотируем метку Entailment, список предложений в цитируемых статьях, которые подтверждают предложение и токены в иске, которые не поддерживаются статьей (статья (ов). с).
Этот набор данных может использоваться для оценки различных задач, но в основном предназначен для трех задач: классификация въезда, поиск предложения и обнаружение не поддерживаемых токенов.
data/entailment_retrieval включает набор данных WICE для задачи Entailting и поиска. data/entailment_retrieval/претензия включает в себя данные с исходными претензиями и Data/entailment_retrieval/Subcpack, включающий данные с разложенными претензиями (аннотация с использованием претензий).
Каждый подканальный директор включает в себя файлы JSONL для поезда, DEV и тестовых наборов. Вот пример данных в файлах JSONL:
{
"label" : " partially_supported " ,
"supporting_sentences" : [[ 5 , 15 ], [ 15 , 17 ]],
"claim" : " Arnold is currently the publisher and editorial director of Media Play News, one of five Hollywood trades and the only one dedicated to the home entertainment sector. " ,
"evidence" : [ list of evidence sentences ],
"meta" : { "id" : " dev02986 " , "claim_title" : " Roger Hedgecock " , "claim_section" : " Other endeavors. " , "claim_context" : [ paragraph ]}
}
label
: Entailment Label in { supported
, partially_supported
, not_supported
}supporting_sentences
Все предоставленные наборы вспомогательных предложений действительны (в приведенном выше примере как [5, 15]
, так и [5, 17]
аннотируются как правильные наборы вспомогательных предложений, которые включают ту же информацию).claim
: приговор из Википедииevidence
: список предложений на цитируемом веб -сайтеmeta
claim_title
: заголовок страницы Википедии, которая включает в себя claim
claim_section
: раздел, который включает в себя claim
claim_context
: предложения незадолго до claim
Data/non_supported_tokens включает в себя набор данных WICE для задачи обнаружения токенов, не поддерживаемой. Мы предоставляем аннотацию только для подкам, которые аннотируются как partially_supported
. Мы отфильтровали точки данных с низким содержанием межнотатора (подробности, пожалуйста, обратитесь к документу).
{
"claim" : " Irene Hervey appeared in over fifty films and numerous television series. " ,
"claim_tokens" : [ " Irene " , " Hervey " , " appeared " , " in " , " over " , " fifty " , " films " , " and " , " numerous " , " television " , " series " , " . " ],
"non_supported_spans" : [ false , false , false , false , true , true , false , false , false , false , false , false ],
"evidence" : [ list of evidence sentences ],
"meta" : { "id" : " test00561-1 " , "claim_title" : " Irene Hervey " , "claim_section" : " Abstract. " , "claim_context" : " Irene Hervey was an American film, stage, and television actress. " }
}
claim_tokens
: список токенов в претензииnon_supported_spans
: список Bool, соответствующий claim_tokens
( true
-это не поддерживаемые токены) Справочный каталог претензий включает в себя подсказки для претензий, метод разложения претензий с использованием GPT-3. Мы используем разные подсказки для различных наборов данных в экспериментах в этой работе, поэтому мы предоставляем подсказки для Wice, Vitaminc, Paws и Frank (XSUM).
Когда вы оцениваете модели классификации Entrailtment на WICE, если ваша модель не может обрабатывать с очень длинным контекстом ввода, вы должны извлечь доказательства из статей доказательств в качестве первого шага. Пожалуйста, обратитесь к нашей статье для возможных подходов для оценки моделей с ограниченной длиной ввода на Wice.
Если вы оцениваете модели поиска доказательств, вы можете использовать данные в данных/entailment_retrieval.
Если вы ищете простые наборы данных NLI с короткими доказательствами, которые не требуют каких -либо моделей поиска (например, SNLI, MNLI и ANLI), вы можете использовать наш набор данных Oracle. Набор данных Oracle поиска имитирует ситуацию, в которой у вас есть идеальная модель поиска доказательств. Когда вы сообщаете о результате этого Oracle Relective Data, вам необходимо четко упомянуть, что вы используете набор данных по поиску Oracle, а не оригинальный набор данных WICE.
Мы предоставляем код для воспроизведения нашего эксперимента с использованием GPT-3.5 и GPT-4 в наборе данных Oracle. Пожалуйста, обратитесь к CODE_AND_RESOURCES/CODE/README.MD для получения подробной информации.
Пожалуйста, обратитесь к файлу Licence.md.