query wellformedness
1.0.0
来自 Paralex 语料库(Fader et al., 2013)的 25,100 个查询,用人类评分来注释它们是否是格式良好的自然语言问题。
http://goo.gl/language/query-wellformedness
Google 的查询格式良好数据集是通过众包 Paralex 语料库中 25,100 个查询的格式良好注释创建的。每个查询均由 5 位评分者进行注释,每个评分者对查询是否格式良好进行 1/0 评分。有关更多详细信息,请阅读我们的论文:识别格式良好的自然语言问题
对于每个查询,我们提供 5 个二元判断的平均值作为查询的格式良好性分数。以下是数据集中存在的一些查询示例:
询问 | 完好性评级 |
---|---|
希腊仍然实行哪种形式的政府? | 1.0 |
北美猫头鹰的数量? | 0.0 |
约翰尼德普是凯尔特人球迷吗? | 0.8 |
罗尔德·达尔青少年时期住在哪里? | 0.6 |
数据集分为三个文件:train.tsv、dev.tsv 和 test.tsv,每个文件都包含评级查询。文件大小如下:
文件 | 查询次数 |
---|---|
火车.tsv | 17,500 |
开发者tsv | 3,750 |
测试.tsv | 3,850 人 |
每个文件中的示例均以制表符分隔,包含以下列:
柱子 | 内容 |
---|---|
1 | 欧盟包括多少个? |
2 | 0.2 |
如果您在工作中使用或讨论该数据集,请引用我们的论文:
@InProceedings{FaruquiDas2018,
title = {{Identifying Well-formed Natural Language Questions}},
author = {Faruqui, Manaal and Das, Dipanjan},
booktitle = {Proc. of EMNLP},
year = {2018}
}
查询格式良好的数据集已获得 CC BY-SA 4.0 许可。任何第三方内容或数据均“按原样”提供,没有任何明示或暗示的保证。
如果您对数据集或出版物有技术问题,请在此存储库中创建问题。