25.100 pertanyaan dari Paralex corpus (Fader et al., 2013) dianotasi dengan penilaian manusia apakah pertanyaan tersebut merupakan pertanyaan bahasa alami yang disusun dengan baik.
http://goo.gl/lingual/query-wellformedness
Kumpulan data keterbentukan kueri Google dibuat dengan melakukan crowdsourcing anotasi keterbentukan yang baik untuk 25.100 kueri dari korpus Paralex. Setiap kueri dianotasi oleh lima penilai, masing-masing dengan peringkat 1/0 untuk menentukan apakah kueri tersebut dibuat dengan baik atau tidak. Untuk rincian lebih lanjut silakan baca makalah kami: Mengidentifikasi Pertanyaan Bahasa Alami yang Terbentuk dengan Baik
Untuk setiap kueri, kami memberikan rata-rata dari 5 penilaian biner sebagai skor wellformedness untuk kueri tersebut. Berikut adalah beberapa contoh kueri yang ada dalam kumpulan data:
Pertanyaan | Peringkat keterbentukan yang baik |
---|---|
Bentuk pemerintahan manakah yang masih berlaku di Yunani? | 1.0 |
Populasi burung hantu di Amerika Utara? | 0,0 |
Apakah johnny depp penggemar celtic? | 0,8 |
Di mana Roald Dahl tinggal di masa remajanya? | 0,6 |
Kumpulan data dibagi menjadi tiga file: train.tsv, dev.tsv, dan test.tsv, masing-masing berisi kueri berperingkat. Ukuran filenya adalah sebagai berikut:
Mengajukan | Jumlah pertanyaan |
---|---|
kereta.tsv | 17.500 |
dev.tsv | 3.750 |
tes.tsv | 3.850 |
Contoh di setiap file dipisahkan tab yang berisi kolom berikut:
Kolom | Isi |
---|---|
1 | Uni Eropa mencakup berapa banyak? |
2 | 0,2 |
Jika Anda menggunakan atau mendiskusikan kumpulan data ini dalam pekerjaan Anda, harap kutip makalah kami:
@InProceedings{FaruquiDas2018,
title = {{Identifying Well-formed Natural Language Questions}},
author = {Faruqui, Manaal and Das, Dipanjan},
booktitle = {Proc. of EMNLP},
year = {2018}
}
Kumpulan data kueri dengan format yang baik dilisensikan di bawah CC BY-SA 4.0. Konten atau data pihak ketiga mana pun disediakan “Apa Adanya” tanpa jaminan apa pun, tersurat maupun tersirat.
Jika Anda memiliki pertanyaan teknis mengenai kumpulan data atau publikasi, silakan buat masalah di repositori ini.