تم توضيح 25,100 استفسار من مجموعة Paralex (Fader et al., 2013) مع تقييمات بشرية حول ما إذا كانت أسئلة لغة طبيعية جيدة الصياغة.
http://goo.gl/language/query-wellformedness
تم إنشاء مجموعة بيانات حسن التصميم لاستعلام Google من خلال التعهيد الجماعي للتعليقات التوضيحية جيدة التصميم لـ 25100 استعلام من مجموعة Paralex. تمت إضافة تعليق توضيحي لكل استعلام بواسطة خمسة مقيمين لكل منهم تقييم 1/0 فيما إذا كان الاستعلام جيد الصياغة أم لا. لمزيد من التفاصيل، يرجى قراءة ورقتنا البحثية: تحديد أسئلة اللغة الطبيعية جيدة الصياغة
لكل استعلام، نقدم متوسط الأحكام الثنائية الخمسة كدرجة جودة الاستعلام. فيما يلي بعض الأمثلة على الاستعلامات الموجودة في مجموعة البيانات:
استفسار | تصنيف حسن التشكل |
---|---|
ما هو شكل الحكومة الذي لا يزال قائما في اليونان؟ | 1.0 |
سكان البوم فقط في أمريكا الشمالية؟ | 0.0 |
هل جوني ديب من مشجعي سلتيك؟ | 0.8 |
أين عاش رولد دال في سنوات مراهقته؟ | 0.6 |
تنقسم مجموعة البيانات إلى ثلاثة ملفات: Train.tsv، وdev.tsv، وtest.tsv، ويحتوي كل منها على استعلامات مصنفة. حجم الملفات كالتالي:
ملف | عدد الاستفسارات |
---|---|
Train.tsv | 17,500 |
dev.tsv | 3,750 |
test.tsv | 3,850 |
الأمثلة الموجودة في كل ملف مفصولة بعلامات جدولة وتحتوي على الأعمدة التالية:
عمود | محتوى |
---|---|
1 | كم يضم الاتحاد الأوروبي؟ |
2 | 0.2 |
إذا كنت تستخدم مجموعة البيانات هذه أو تناقشها في عملك، فيرجى الاستشهاد بمقالتنا:
@InProceedings{FaruquiDas2018,
title = {{Identifying Well-formed Natural Language Questions}},
author = {Faruqui, Manaal and Das, Dipanjan},
booktitle = {Proc. of EMNLP},
year = {2018}
}
مجموعة بيانات الاستعلام الجيد مرخصة بموجب CC BY-SA 4.0. يتم توفير أي محتوى أو بيانات خاصة بطرف ثالث "كما هي" دون أي ضمان، صريحًا أو ضمنيًا.
إذا كان لديك سؤال فني يتعلق بمجموعة البيانات أو المنشور، فيرجى إنشاء مشكلة في هذا المستودع.