25.100 consultas del corpus Paralex (Fader et al., 2013) anotadas con calificaciones humanas sobre si son preguntas en lenguaje natural bien formadas.
http://goo.gl/language/query-wellformedness
El conjunto de datos de buena formación de consultas de Google se creó mediante crowdsourcing de anotaciones de buena formación para 25.100 consultas del corpus Paralex. Cada consulta fue comentada por cinco evaluadores, cada uno con una calificación de 1/0 sobre si la consulta está bien formada o no. Para obtener más detalles, lea nuestro artículo: Identificación de preguntas en lenguaje natural bien formuladas.
Para cada consulta proporcionamos el promedio de los 5 juicios binarios como puntuación de buena formación de la consulta. A continuación se muestran algunos ejemplos de consultas presentes en el conjunto de datos:
Consulta | Calificación de buena formación |
---|---|
¿Qué forma de gobierno existe todavía en Grecia? | 1.0 |
¿Población de búhos solo en América del Norte? | 0.0 |
¿Johnny Depp es fanático de los celtas? | 0,8 |
¿Dónde vivió Roald Dahl en su adolescencia? | 0,6 |
El conjunto de datos se divide en tres archivos: train.tsv, dev.tsv y test.tsv, cada uno de los cuales contiene consultas calificadas. El tamaño de los archivos es el siguiente:
Archivo | No. de consultas |
---|---|
tren.tsv | 17.500 |
dev.tsv | 3.750 |
prueba.tsv | 3.850 |
Los ejemplos de cada archivo están separados por tabulaciones y contienen las siguientes columnas:
Columna | Contenido |
---|---|
1 | ¿A cuántos pertenece la Unión Europea? |
2 | 0,2 |
Si utiliza o analiza este conjunto de datos en su trabajo, cite nuestro artículo:
@InProceedings{FaruquiDas2018,
title = {{Identifying Well-formed Natural Language Questions}},
author = {Faruqui, Manaal and Das, Dipanjan},
booktitle = {Proc. of EMNLP},
year = {2018}
}
El conjunto de datos de calidad de consulta tiene licencia CC BY-SA 4.0. Cualquier contenido o datos de terceros se proporciona "tal cual" sin ninguna garantía, expresa o implícita.
Si tiene una pregunta técnica sobre el conjunto de datos o la publicación, cree un problema en este repositorio.