25 100 запросов из корпуса Paralex (Fader et al., 2013), снабженных человеческими оценками того, являются ли они правильно сформулированными вопросами на естественном языке.
http://goo.gl/language/query-wellformedness
Набор данных Google о правильности запросов был создан путем краудсорсинга корректных аннотаций для 25 100 запросов из корпуса Paralex. Каждый запрос был аннотирован пятью оценщиками, каждый из которых имел оценку 1/0 того, является ли запрос правильно сформированным. Для получения более подробной информации, пожалуйста, прочитайте нашу статью: Определение правильно сформированных вопросов на естественном языке.
Для каждого запроса мы указываем среднее значение 5 бинарных суждений в качестве оценки правильности запроса. Ниже приведены некоторые примеры запросов, присутствующих в наборе данных:
Запрос | Рейтинг правильности |
---|---|
Какая форма правления сохранилась в Греции? | 1.0 |
Популяция сов только в Северной Америке? | 0,0 |
Джонни Депп фанат «Селтика»? | 0,8 |
Где жил Роальд Даль в подростковом возрасте? | 0,6 |
Набор данных разделен на три файла: train.tsv, dev.tsv и test.tsv, каждый из которых содержит рейтинговые запросы. Размер файлов следующий:
Файл | Количество запросов |
---|---|
поезд.цв | 17 500 |
dev.tsv | 3750 |
test.tsv | 3850 |
Примеры в каждом файле разделены табуляцией и содержат следующие столбцы:
Столбец | Содержание |
---|---|
1 | Сколько в Европейский Союз входит? |
2 | 0,2 |
Если вы используете или обсуждаете этот набор данных в своей работе, пожалуйста, цитируйте нашу статью:
@InProceedings{FaruquiDas2018,
title = {{Identifying Well-formed Natural Language Questions}},
author = {Faruqui, Manaal and Das, Dipanjan},
booktitle = {Proc. of EMNLP},
year = {2018}
}
Набор данных корректности запросов доступен под лицензией CC BY-SA 4.0. Любой сторонний контент или данные предоставляются «как есть» без каких-либо гарантий, явных или подразумеваемых.
Если у вас есть технический вопрос относительно набора данных или публикации, создайте проблему в этом репозитории.