이 저장소에는 종이 와이드 : Wikipedia (EMNLP 2023)의 클레임에 대한 실제에 대한 데이터 세트 및 코드가 포함되어 있습니다.
저자 : Ryo Kamoi, Tanya Goyal, Juan Diego Rodriguez, Greg Durrett
@inproceedings { kamoi-etal-2023-wice ,
title = " {W}i{CE}: Real-World Entailment for Claims in {W}ikipedia " ,
author = " Kamoi, Ryo and
Goyal, Tanya and
Rodriguez, Juan and
Durrett, Greg " ,
editor = " Bouamor, Houda and
Pino, Juan and
Bali, Kalika " ,
booktitle = " Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing " ,
month = dec,
year = " 2023 " ,
address = " Singapore " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2023.emnlp-main.470 " ,
pages = " 7561--7583 " ,
}
Wice는 자연적인 주장 및 Wikipedia에서 추출한 증거 쌍을 기반으로 한 세밀한 텍스트 수분 데이터 세트입니다. Wikipedia의 문장과 해당 기사가 인용 한 경우, 우리는 인용 된 기사의 문장 목록에 undailment 레이블에 주석을 달고, 청구 문장을 뒷받침하는 문장 목록, 그리고 기사가지지하지 않는 주장의 토큰에 주석을 달게됩니다. 에스).
이 데이터 세트는 다양한 작업을 평가하는 데 사용될 수 있지만 주로 주로 세 가지 작업을 위해 설계되었습니다.
data/endailment_retrieval에는 entailment 및 검색 작업을위한 와이스 데이터 세트가 포함되어 있습니다. Data/Entailment_RetRieval/Claim에는 원래 클레임 및 데이터/endailment_RetRieval/Sublaim이 포함 된 데이터가 포함되어 있습니다. 분해 된 클레임이 포함 된 데이터 (클레임 스플릿을 사용하여 미세한 주석)가 포함됩니다.
각 하위 디렉토리에는 Train, Dev 및 테스트 세트 용 JSONL 파일이 포함됩니다. JSONL 파일의 데이터 예는 다음과 같습니다.
{
"label" : " partially_supported " ,
"supporting_sentences" : [[ 5 , 15 ], [ 15 , 17 ]],
"claim" : " Arnold is currently the publisher and editorial director of Media Play News, one of five Hollywood trades and the only one dedicated to the home entertainment sector. " ,
"evidence" : [ list of evidence sentences ],
"meta" : { "id" : " dev02986 " , "claim_title" : " Roger Hedgecock " , "claim_section" : " Other endeavors. " , "claim_context" : [ paragraph ]}
}
label
: { supported
, partially_supported
, not_supported
}의 entailment 레이블supporting_sentences
: 지원 문장의 지수 목록. 제공된 모든 지원 문장 세트는 유효합니다 (위의 예에서는 [5, 15]
및 [5, 17]
모두 동일한 정보를 포함하는 올바른 지원 문장 세트로 주석을 달 수 있음).claim
: Wikipedia의 문장evidence
: 인용 웹 사이트의 문장 목록meta
claim_title
: claim
포함하는 Wikipedia 페이지의 제목claim_section
: claim
이 포함 된 섹션claim_context
: claim
직전 문장 데이터/non_supported_tokens에는 지원되지 않는 토큰 탐지 작업을위한 WICE 데이터 세트가 포함되어 있습니다. partially_supported
로 주석이 달린 서브 클레임에 대한 주석 만 제공합니다. 저희는 낮은 발표기 계약으로 데이터 포인트를 걸러 냈습니다 (자세한 내용은 용지를 참조하십시오).
{
"claim" : " Irene Hervey appeared in over fifty films and numerous television series. " ,
"claim_tokens" : [ " Irene " , " Hervey " , " appeared " , " in " , " over " , " fifty " , " films " , " and " , " numerous " , " television " , " series " , " . " ],
"non_supported_spans" : [ false , false , false , false , true , true , false , false , false , false , false , false ],
"evidence" : [ list of evidence sentences ],
"meta" : { "id" : " test00561-1 " , "claim_title" : " Irene Hervey " , "claim_section" : " Abstract. " , "claim_context" : " Irene Hervey was an American film, stage, and television actress. " }
}
claim_tokens
: 클레임의 토큰 목록non_supported_spans
: claim_tokens
에 해당하는 bool 목록 ( true
는 지원되지 않는 토큰입니다) CLEART_SPLIT 디렉토리에는 GPT-3을 사용하여 클레임을 분해하는 방법 인 CLAMPLIT의 프롬프트가 포함됩니다. 우리는이 작업의 실험에서 다른 데이터 세트에 대해 다른 프롬프트를 사용하므로 Wice, Vitaminc, Paws 및 Frank (XSUM)에 대한 프롬프트를 제공합니다.
WICE에서 Enlailment Classification 모델을 평가할 때, 모델이 매우 긴 입력 컨텍스트로 처리 할 수 없다면 증거 기사에서 증거 문장을 첫 번째 단계로 검색해야합니다. WICE에서 입력 길이가 제한된 모델을 평가하기위한 가능한 접근법은 논문을 참조하십시오.
증거 검색 모델을 평가하면 데이터/entailment_retrieval의 데이터를 사용할 수 있습니다.
SNLI, MNLI 및 ANLI와 같은 검색 모델이 필요하지 않은 짧은 증거가있는 간단한 NLI 데이터 세트를 찾고 있다면 Oracle 검색 데이터 세트를 사용할 수 있습니다. Oracle 검색 데이터 세트는 완벽한 증거 검색 모델이 있다는 상황을 시뮬레이션합니다. 이 Oracle 검색 데이터에 대한 결과를보고 할 때 원래 WICE 데이터 세트가 아닌 Oracle 검색 데이터 세트를 사용한다는 것을 명확하게 언급해야합니다.
우리는 Oracle 검색 데이터 세트에서 GPT-3.5 및 GPT-4를 사용하여 실험을 재현하기위한 코드를 제공합니다. 자세한 내용은 code_and_resources/code/readme.md를 참조하십시오.
Licence.md 파일을 참조하십시오.