25 100 requêtes du corpus Paralex (Fader et al., 2013) annotées avec des évaluations humaines indiquant s'il s'agit de questions en langage naturel bien formées.
http://goo.gl/langue/query-wellformedness
L'ensemble de données de qualité de forme des requêtes de Google a été créé par le crowdsourcing d'annotations de bonne forme pour 25 100 requêtes du corpus Paralex. Chaque requête a été annotée par cinq évaluateurs, chacun avec une note de 1/0 pour savoir si la requête est bien formée ou non. Pour plus de détails, veuillez lire notre article : Identifier les questions en langage naturel bien formées
Pour chaque requête, nous fournissons la moyenne des 5 jugements binaires comme score de bonne forme pour la requête. Voici quelques exemples de requêtes présentes dans l’ensemble de données :
Requête | Évaluation de la forme |
---|---|
Quelle forme de gouvernement est encore en place en Grèce ? | 1.0 |
Population de hiboux uniquement en Amérique du Nord ? | 0,0 |
Johnny Depp est-il un fan celtique ? | 0,8 |
Où Roald Dahl a-t-il vécu pendant son adolescence ? | 0,6 |
L'ensemble de données est divisé en trois fichiers : train.tsv, dev.tsv et test.tsv, chacun contenant des requêtes notées. La taille des fichiers est la suivante :
Déposer | Nombre de requêtes |
---|---|
train.tsv | 17 500 |
dev.tsv | 3 750 |
test.tsv | 3 850 |
Les exemples de chaque fichier sont séparés par des tabulations contenant les colonnes suivantes :
Colonne | Contenu |
---|---|
1 | L’Union européenne en compte combien ? |
2 | 0,2 |
Si vous utilisez ou discutez de cet ensemble de données dans votre travail, veuillez citer notre article :
@InProceedings{FaruquiDas2018,
title = {{Identifying Well-formed Natural Language Questions}},
author = {Faruqui, Manaal and Das, Dipanjan},
booktitle = {Proc. of EMNLP},
year = {2018}
}
L'ensemble de données de requête-wellformedness est sous licence CC BY-SA 4.0. Tout contenu ou donnée tiers est fourni « tel quel » sans aucune garantie, expresse ou implicite.
Si vous avez une question technique concernant l'ensemble de données ou la publication, veuillez créer un problème dans ce référentiel.