Repositori ini berisi dataset dan kode untuk Wice Paper: World Real World untuk klaim di Wikipedia (EMNLP 2023).
Penulis: Ryo Kamoi, Tanya Goyal, Juan Diego Rodriguez, Greg Durrett
@inproceedings { kamoi-etal-2023-wice ,
title = " {W}i{CE}: Real-World Entailment for Claims in {W}ikipedia " ,
author = " Kamoi, Ryo and
Goyal, Tanya and
Rodriguez, Juan and
Durrett, Greg " ,
editor = " Bouamor, Houda and
Pino, Juan and
Bali, Kalika " ,
booktitle = " Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing " ,
month = dec,
year = " 2023 " ,
address = " Singapore " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2023.emnlp-main.470 " ,
pages = " 7561--7583 " ,
}
Wice adalah dataset upacara tekstual berbutir halus yang dibangun di atas klaim alami dan pasangan bukti yang diekstraksi dari Wikipedia. Diberikan kalimat di Wikipedia dan artikel yang sesuai yang dikutip, kami membubuhi keterangan label usaha, daftar kalimat dalam artikel yang dikutip yang mendukung hukuman klaim, dan token dalam klaim yang tidak didukung oleh artikel ( S).
Dataset ini dapat digunakan untuk mengevaluasi berbagai tugas, tetapi terutama dirancang untuk tiga tugas: klasifikasi yang diperlukan, pengambilan kalimat bukti, dan deteksi token yang tidak didukung.
Data/ikuting_retrieval mencakup dataset wice untuk tugas yang diperlukan dan pengambilan. DATA/BERTAWTRIVAL/KLAIM TERMASUK DATA DENGAN KLAIM DAN DATA DATA/BERSAI_RETRIEVAL/SUBCLAIM mencakup data dengan klaim yang didekomposisi (anotasi halus dengan menggunakan klaim-split).
Setiap sub-direktori menyertakan file JSONL untuk set kereta, dev, dan tes. Berikut adalah contoh data dalam file JSONL:
{
"label" : " partially_supported " ,
"supporting_sentences" : [[ 5 , 15 ], [ 15 , 17 ]],
"claim" : " Arnold is currently the publisher and editorial director of Media Play News, one of five Hollywood trades and the only one dedicated to the home entertainment sector. " ,
"evidence" : [ list of evidence sentences ],
"meta" : { "id" : " dev02986 " , "claim_title" : " Roger Hedgecock " , "claim_section" : " Other endeavors. " , "claim_context" : [ paragraph ]}
}
label
: label ikut dalam { supported
, partially_supported
, not_supported
}supporting_sentences
: Daftar indeks kalimat pendukung. Semua set kalimat pendukung yang disediakan valid (dalam contoh di atas, baik [5, 15]
dan [5, 17]
dijelaskan sebagai set kalimat pendukung yang benar yang mencakup informasi yang sama).claim
: Kalimat dari Wikipediaevidence
: Daftar kalimat di situs web yang dikutipmeta
claim_title
: judul halaman Wikipedia yang mencakup claim
claim_section
: bagian yang mencakup claim
claim_context
: kalimat sebelum claim
Data/non_supported_tokens mencakup dataset WICE untuk tugas deteksi token yang tidak didukung. Kami hanya memberikan anotasi untuk sub-klaim yang dianotasi sebagai partially_supported
. Kami memfilter titik data dengan perjanjian antar-kanotator rendah (silakan merujuk ke makalah untuk detailnya).
{
"claim" : " Irene Hervey appeared in over fifty films and numerous television series. " ,
"claim_tokens" : [ " Irene " , " Hervey " , " appeared " , " in " , " over " , " fifty " , " films " , " and " , " numerous " , " television " , " series " , " . " ],
"non_supported_spans" : [ false , false , false , false , true , true , false , false , false , false , false , false ],
"evidence" : [ list of evidence sentences ],
"meta" : { "id" : " test00561-1 " , "claim_title" : " Irene Hervey " , "claim_section" : " Abstract. " , "claim_context" : " Irene Hervey was an American film, stage, and television actress. " }
}
claim_tokens
: Daftar token dalam klaimnon_supported_spans
: Daftar bool yang sesuai dengan claim_tokens
( true
adalah token yang tidak didukung) Direktori Claim_Split mencakup petunjuk untuk klaim-split, metode untuk menguraikan klaim dengan menggunakan GPT-3. Kami menggunakan dorongan yang berbeda untuk set data yang berbeda dalam percobaan dalam pekerjaan ini, jadi kami memberikan petunjuk untuk Wice, Vitaminc, Paws, dan Frank (XSUM).
Saat Anda mengevaluasi model klasifikasi yang diperlukan pada wice, kecuali jika model Anda dapat menangani dengan konteks input yang sangat panjang, Anda harus mengambil kalimat bukti dari artikel bukti sebagai langkah pertama. Silakan merujuk ke makalah kami untuk kemungkinan pendekatan untuk mengevaluasi model dengan panjang input terbatas pada wice.
Jika Anda mengevaluasi model pengambilan bukti, Anda dapat menggunakan data dalam data/ikut bepergian_retrieval.
Jika Anda mencari set data NLI sederhana dengan bukti singkat yang tidak memerlukan model pengambilan (seperti SNLI, MNLI, dan ANLI), Anda dapat menggunakan dataset oracle retrieval kami. Dataset oracle retrieval mensimulasikan situasi bahwa Anda memiliki model pengambilan bukti yang sempurna. Ketika Anda melaporkan hasil pada data pengambilan Oracle ini, Anda perlu menyebutkan dengan jelas bahwa Anda menggunakan dataset oracle retrieval, bukan dataset wice asli.
Kami menyediakan kode untuk mereproduksi percobaan kami menggunakan GPT-3.5 dan GPT-4 pada dataset oracle retrieval. Silakan merujuk ke kode_and_resources/code/readme.md untuk detailnya.
Silakan merujuk ke file lisensi.md.