25.100 Abfragen aus dem Paralex-Korpus (Fader et al., 2013), kommentiert mit menschlichen Bewertungen, ob es sich um wohlgeformte Fragen in natürlicher Sprache handelt.
http://goo.gl/sprache/query-wellformedness
Der Google-Datensatz zur Wohlgeformtheit von Abfragen wurde durch Crowdsourcing von Wohlgeformtheitsanmerkungen für 25.100 Abfragen aus dem Paralex-Korpus erstellt. Jede Abfrage wurde von fünf Bewertern jeweils mit einer 1/0-Bewertung dazu versehen, ob die Abfrage wohlgeformt ist oder nicht. Für weitere Details lesen Sie bitte unseren Artikel: Identifying Well-formed Natural Language Questions
Für jede Abfrage stellen wir den Durchschnitt der 5 binären Beurteilungen als Wohlgeformtheitswert für die Abfrage bereit. Im Folgenden finden Sie einige Beispiele für im Datensatz vorhandene Abfragen:
Abfrage | Wohlgeformtheitsbewertung |
---|---|
Welche Regierungsform gibt es in Griechenland noch? | 1,0 |
Population von Eulen nur in Nordamerika? | 0,0 |
Ist Johnny Depp ein Celtic-Fan? | 0,8 |
Wo lebte Roald Dahl als Teenager? | 0,6 |
Der Datensatz ist in drei Dateien unterteilt: train.tsv, dev.tsv und test.tsv, die jeweils bewertete Abfragen enthalten. Die Größe der Dateien ist wie folgt:
Datei | Anzahl der Abfragen |
---|---|
train.tsv | 17.500 |
dev.tsv | 3.750 |
test.tsv | 3.850 |
Die Beispiele in jeder Datei sind durch Tabulatoren getrennt und enthalten die folgenden Spalten:
Spalte | Inhalt |
---|---|
1 | Wie viele umfasst die Europäische Union? |
2 | 0,2 |
Wenn Sie diesen Datensatz in Ihrer Arbeit verwenden oder diskutieren, zitieren Sie bitte unser Papier:
@InProceedings{FaruquiDas2018,
title = {{Identifying Well-formed Natural Language Questions}},
author = {Faruqui, Manaal and Das, Dipanjan},
booktitle = {Proc. of EMNLP},
year = {2018}
}
Der Abfrage-Wohlgeformtheitsdatensatz ist unter CC BY-SA 4.0 lizenziert. Sämtliche Inhalte oder Daten Dritter werden „wie besehen“ ohne jegliche ausdrückliche oder stillschweigende Gewährleistung bereitgestellt.
Wenn Sie eine technische Frage zum Datensatz oder zur Veröffentlichung haben, erstellen Sie bitte ein Problem in diesem Repository.