25.100 consultas do corpus Paralex (Fader et al., 2013) anotadas com classificações humanas para saber se são questões de linguagem natural bem formadas.
http://goo.gl/linguagem/query-wellformedness
O conjunto de dados de boa formação de consultas do Google foi criado por crowdsourcing de anotações de boa formação para 25.100 consultas do corpus Paralex. Cada consulta foi anotada por cinco avaliadores, cada um com classificação 1/0 para saber se a consulta está bem formada ou não. Para mais detalhes, leia nosso artigo: Identificando questões de linguagem natural bem formadas
Para cada consulta fornecemos a média dos 5 julgamentos binários como a pontuação de boa formação da consulta. A seguir estão alguns exemplos de consultas presentes no conjunto de dados:
Consulta | Classificação de bem-formado |
---|---|
Que forma de governo ainda existe na Grécia? | 1,0 |
População de corujas apenas na América do Norte? | 0,0 |
Johnny Depp é fã do Celtic? | 0,8 |
Onde Roald Dahl morou na adolescência? | 0,6 |
O conjunto de dados é dividido em três arquivos: train.tsv, dev.tsv e test.tsv, cada um contendo consultas avaliadas. O tamanho dos arquivos é o seguinte:
Arquivo | Nº de consultas |
---|---|
trem.tsv | 17.500 |
dev.tsv | 3.750 |
teste.tsv | 3.850 |
Os exemplos em cada arquivo são separados por tabulações contendo as seguintes colunas:
Coluna | Contente |
---|---|
1 | A União Europeia inclui quantos? |
2 | 0,2 |
Se você usa ou discute este conjunto de dados em seu trabalho, cite nosso artigo:
@InProceedings{FaruquiDas2018,
title = {{Identifying Well-formed Natural Language Questions}},
author = {Faruqui, Manaal and Das, Dipanjan},
booktitle = {Proc. of EMNLP},
year = {2018}
}
O conjunto de dados de boa formação de consulta está licenciado sob CC BY-SA 4.0. Qualquer conteúdo ou dados de terceiros são fornecidos “como estão”, sem qualquer garantia, expressa ou implícita.
Se você tiver alguma dúvida técnica sobre o conjunto de dados ou publicação, crie um problema neste repositório.