Este repositório contém conjunto de dados e código para o artigo WICE: Valor do mundo real para reivindicações na Wikipedia (EMNLP 2023).
Autores: Ryo Kamoi, Tanya Goyal, Juan Diego Rodriguez, Greg Durrett
@inproceedings { kamoi-etal-2023-wice ,
title = " {W}i{CE}: Real-World Entailment for Claims in {W}ikipedia " ,
author = " Kamoi, Ryo and
Goyal, Tanya and
Rodriguez, Juan and
Durrett, Greg " ,
editor = " Bouamor, Houda and
Pino, Juan and
Bali, Kalika " ,
booktitle = " Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing " ,
month = dec,
year = " 2023 " ,
address = " Singapore " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2023.emnlp-main.470 " ,
pages = " 7561--7583 " ,
}
O WICE é um conjunto de dados de interrupção textual de granulação fina, construída sobre reivindicações naturais e pares de evidências extraídos da Wikipedia. Dada uma sentença na Wikipedia e os artigo (s) correspondente (s) que cita, anotamos o rótulo de implicação, uma lista de frases nos artigos citados que apóiam a sentença de reivindicação e os tokens na reivindicação que não são suportados pelo artigo ( s).
Esse conjunto de dados pode ser usado para avaliar uma variedade de tarefas, mas é projetado principalmente para três tarefas: classificação de interrupção, recuperação de sentenças de evidência e detecção de tokens não suportada.
Dados/InteraLment_retrieval inclui o conjunto de dados WICE para inquietação e tarefa de recuperação. Dados/INSELHEMENTO_RETRIEVAL/RELAMANTE INCLUI DADOS COM as reivindicações e dados originais/IntelaLment_retrieval/Subclaim Inclui dados com as reivindicações em decomposição (anotação Finegiled usando a reivindicação).
Cada subdiretório inclui arquivos JSONL para conjuntos de trens, dev e testes. Aqui está um exemplo dos dados nos arquivos jsonl:
{
"label" : " partially_supported " ,
"supporting_sentences" : [[ 5 , 15 ], [ 15 , 17 ]],
"claim" : " Arnold is currently the publisher and editorial director of Media Play News, one of five Hollywood trades and the only one dedicated to the home entertainment sector. " ,
"evidence" : [ list of evidence sentences ],
"meta" : { "id" : " dev02986 " , "claim_title" : " Roger Hedgecock " , "claim_section" : " Other endeavors. " , "claim_context" : [ paragraph ]}
}
label
: Label de interrupção em { supported
, partially_supported
, not_supported
}supporting_sentences
: Lista de índices de frases de apoio. Todos os conjuntos de frases de suporte são válidos (no exemplo acima, [5, 15]
e [5, 17]
são anotados como conjuntos corretos de frases de suporte que incluem as mesmas informações).claim
: Uma frase da Wikipediaevidence
: Uma lista de frases no site citadometa
claim_title
: título da página da Wikipedia que inclui claim
claim_section
: seção que inclui claim
claim_context
: frases pouco antes claim
Data/não_supported_tokens inclui o conjunto de dados WICE para tarefa de detecção de tokens não suportada. Fornecemos apenas anotação para sub-reivindicações que são anotadas como partially_supported
. Filizamos pontos de dados com o baixo contrato entre anotadores (consulte o documento para obter detalhes).
{
"claim" : " Irene Hervey appeared in over fifty films and numerous television series. " ,
"claim_tokens" : [ " Irene " , " Hervey " , " appeared " , " in " , " over " , " fifty " , " films " , " and " , " numerous " , " television " , " series " , " . " ],
"non_supported_spans" : [ false , false , false , false , true , true , false , false , false , false , false , false ],
"evidence" : [ list of evidence sentences ],
"meta" : { "id" : " test00561-1 " , "claim_title" : " Irene Hervey " , "claim_section" : " Abstract. " , "claim_context" : " Irene Hervey was an American film, stage, and television actress. " }
}
claim_tokens
: lista de tokens na reivindicaçãonon_supported_spans
: lista de bool correspondente a claim_tokens
( true
é tokens não apoiados) O diretório reivindicador_split inclui avisos para split de reivindicação, um método para decompor reclamações usando o GPT-3. Utilizamos instruções diferentes para diferentes conjuntos de dados nos experimentos neste trabalho, por isso fornecemos prompts para WICE, Vitaminc, PAWS e Frank (Xsum).
Quando você avalia os modelos de classificação de enraizamento no WICE, a menos que seu modelo possa lidar com um contexto de entrada muito longo, você deve recuperar sentenças de evidência dos artigos de evidência como a primeira etapa. Consulte o nosso artigo para possíveis abordagens para avaliar modelos com comprimento de entrada limitado no WICE.
Se você avaliar os modelos de recuperação de evidências, poderá usar os dados em dados/houselment_retrieval.
Se você estiver procurando por conjuntos de dados NLI simples com evidências curtas que não exigem modelos de recuperação (como SNLI, MNLI e ANLI), você pode usar nosso conjunto de dados de recuperação do Oracle. O conjunto de dados da Oracle Retrieval simula a situação em que você tem um modelo de recuperação de evidências perfeitas. Quando você relata o resultado deste Oracle Retrieval Data, você precisa mencionar claramente que usa o conjunto de dados de recuperação do Oracle, não o conjunto de dados WICE original.
Fornecemos código para reproduzir nosso experimento usando o GPT-3.5 e o GPT-4 no conjunto de dados de recuperação do Oracle. Consulte o code_and_resources/code/readme.md para obter detalhes.
Consulte o arquivo LECENCE.MD.