คำถาม 25,100 รายการจาก Paralex Corpus (Fader et al., 2013) มีคำอธิบายประกอบพร้อมการให้คะแนนโดยมนุษย์ว่าคำถามเหล่านั้นเป็นภาษาธรรมชาติที่มีรูปแบบถูกต้องหรือไม่
http://goo.gl/ language/query-wellformedness
ชุดข้อมูลการค้นหาที่มีรูปแบบที่ถูกต้องของ Google สร้างขึ้นโดยการรวบรวมคำอธิบายประกอบที่มีรูปแบบที่ถูกต้องสำหรับการค้นหา 25,100 รายการจากคลังข้อมูล Paralex ทุกคำค้นหาได้รับการใส่คำอธิบายประกอบโดยผู้ประเมิน 5 คน โดยแต่ละคำให้คะแนน 1/0 ว่าคำค้นหานั้นมีรูปแบบที่ถูกต้องหรือไม่ สำหรับรายละเอียดเพิ่มเติม โปรดอ่านบทความของเรา: การระบุคำถามภาษาธรรมชาติที่มีรูปแบบถูกต้อง
สำหรับการสืบค้นแต่ละครั้ง เราจะให้ค่าเฉลี่ยของการตัดสินแบบไบนารี 5 ครั้งเป็นคะแนนความเหมาะสมสำหรับการสืบค้น ต่อไปนี้เป็นตัวอย่างของการสืบค้นที่มีอยู่ในชุดข้อมูล:
แบบสอบถาม | คะแนนสภาพร่างกายที่ดี |
---|---|
รัฐบาลรูปแบบใดที่ยังคงอยู่ในกรีซ? | 1.0 |
ประชากรของนกฮูกในทวีปอเมริกาเหนือ ? | 0.0 |
จอห์นนี่ เดปป์เป็นแฟนเซลติกหรือเปล่า? | 0.8 |
Roald Dahl อาศัยอยู่ที่ไหนในช่วงวัยรุ่น? | 0.6 |
ชุดข้อมูลแบ่งออกเป็นสามไฟล์: train.tsv, dev.tsv และ test.tsv แต่ละไฟล์มีคำค้นหาที่ได้รับการจัดอันดับ ขนาดของไฟล์มีดังนี้:
ไฟล์ | จำนวนแบบสอบถาม |
---|---|
รถไฟ.tsv | 17,500 |
dev.tsv | 3,750 |
test.tsv | 3,850 |
ตัวอย่างในแต่ละไฟล์จะถูกคั่นด้วยแท็บซึ่งมีคอลัมน์ต่อไปนี้:
คอลัมน์ | เนื้อหา |
---|---|
1 | สหภาพยุโรปมีกี่แห่ง ? |
2 | 0.2 |
หากคุณใช้หรือหารือเกี่ยวกับชุดข้อมูลนี้ในงานของคุณ โปรดอ้างอิงรายงานของเรา:
@InProceedings{FaruquiDas2018,
title = {{Identifying Well-formed Natural Language Questions}},
author = {Faruqui, Manaal and Das, Dipanjan},
booktitle = {Proc. of EMNLP},
year = {2018}
}
ชุดข้อมูล Query-wellformedness ได้รับอนุญาตภายใต้ CC BY-SA 4.0 เนื้อหาหรือข้อมูลของบุคคลที่สามใด ๆ จัดให้ "ตามสภาพ" โดยไม่มีการรับประกันใด ๆ ทั้งโดยชัดแจ้งหรือโดยนัย
หากคุณมีคำถามทางเทคนิคเกี่ยวกับชุดข้อมูลหรือการเผยแพร่ โปรดสร้างปัญหาในพื้นที่เก็บข้อมูลนี้