query wellformedness
1.0.0
Paralex コーパス (Fader et al., 2013) の 25,100 のクエリには、整形式の自然言語の質問であるかどうかについて人間による評価が注釈付けされています。
http://goo.gl/ language/query-wellformedness
Google のクエリ整形式データセットは、Paralex コーパスからの 25,100 クエリに対する整形式アノテーションをクラウドソーシングすることによって作成されました。すべてのクエリには 5 人の評価者によって注釈が付けられ、クエリが整形式であるかどうかについて 1/0 の評価が付けられました。詳細については、論文「整形式の自然言語の質問の特定」を参照してください。
各クエリについて、5 つのバイナリ判定の平均をクエリの整形式スコアとして提供します。以下に、データセットに存在するクエリの例をいくつか示します。
クエリ | 整形式の評価 |
---|---|
ギリシャで現在も存続している政府形態はどれですか? | 1.0 |
フクロウの生息数は北米だけ? | 0.0 |
ジョニー・デップはケルトのファンですか? | 0.8 |
ロアルド・ダールは十代の頃どこに住んでいましたか? | 0.6 |
データセットは、train.tsv、dev.tsv、test.tsv の 3 つのファイルに分割されており、それぞれに評価されたクエリが含まれています。ファイルのサイズは次のとおりです。
ファイル | クエリ数 |
---|---|
train.tsv | 17,500 |
dev.tsv | 3,750 |
テスト.tsv | 3,850 |
各ファイルの例はタブで区切られており、次の列が含まれています。
カラム | コンテンツ |
---|---|
1 | 欧州連合にはいくつ含まれますか? |
2 | 0.2 |
このデータセットを仕事で使用したり議論したりする場合は、次の論文を引用してください。
@InProceedings{FaruquiDas2018,
title = {{Identifying Well-formed Natural Language Questions}},
author = {Faruqui, Manaal and Das, Dipanjan},
booktitle = {Proc. of EMNLP},
year = {2018}
}
クエリ整形式データセットは CC BY-SA 4.0 に基づいてライセンスされています。第三者のコンテンツまたはデータは、明示的か黙示的かを問わず、いかなる保証もなしに「現状のまま」提供されます。
データセットまたは出版物に関して技術的な質問がある場合は、このリポジトリで問題を作成してください。