query wellformedness
1.0.0
來自 Paralex 語料庫(Fader et al., 2013)的 25,100 個查詢,用人類評分來註釋它們是否是格式良好的自然語言問題。
http://goo.gl/language/query-wellformedness
Google 的查詢格式良好資料集是透過眾包 Paralex 語料庫中 25,100 個查詢的格式良好註釋建立的。每個查詢均由 5 位評分者進行註釋,每位評分者對查詢是否格式良好進行 1/0 評分。有關更多詳細信息,請閱讀我們的論文:識別格式良好的自然語言問題
對於每個查詢,我們提供 5 個二元判斷的平均值作為查詢的格式良好性分數。以下是資料集中存在的一些查詢範例:
詢問 | 完好評級 |
---|---|
希臘仍然實行哪一種形式的政府? | 1.0 |
北美貓頭鷹的數量? | 0.0 |
強尼戴普是凱爾特人球迷嗎? | 0.8 |
羅爾德達爾青少年時期住在哪裡? | 0.6 |
資料集分為三個檔案:train.tsv、dev.tsv 和 test.tsv,每個檔案都包含評級查詢。文件大小如下:
文件 | 查詢次數 |
---|---|
火車.tsv | 17,500 |
開發者tsv | 3,750 |
測試.tsv | 3,850 人 |
每個文件中的範例均以製表符分隔,包含以下列:
柱子 | 內容 |
---|---|
1 | 歐盟包括多少個? |
2 | 0.2 |
如果您在工作中使用或討論該資料集,請引用我們的論文:
@InProceedings{FaruquiDas2018,
title = {{Identifying Well-formed Natural Language Questions}},
author = {Faruqui, Manaal and Das, Dipanjan},
booktitle = {Proc. of EMNLP},
year = {2018}
}
查詢格式良好的資料集已獲得 CC BY-SA 4.0 授權。任何第三方內容或數據均以「原樣」提供,沒有任何明示或暗示的保證。
如果您對資料集或出版物有技術問題,請在此儲存庫中建立問題。