COLDataset
1.0.0
المستودع الرسمي للورقة: البرد: معيار للكشف عن اللغة الهجومية الصينية
中文冒犯语言检测数据集
رابط الورق: https://arxiv.org/abs/2201.06025
الكاشف: نصدر نسخة من روبرتا-باس-كولد في Huggingface.
تم قبول ورقةنا من قبل EMNLP 2022!
يحتوي Coldataset على 37480 تعليقًا مع علامات هجومية ثنائية وتغطي مواضيع متنوعة من العرق والجنس والمنطقة. للحصول على مزيد من الأفكار حول أنواع البيانات والخصائص ، نقوم بتعليق الاختبار المحدد على مستوى دقيق مع أربع فئات: مهاجمة الأفراد ، ومجموعات مهاجمة ، ومكافحة التحيز وغيرها من الهجوم.
الملصقات في Train.csv و dev.csv:
العلامة ذات الحبيبات الدقيقة في test.csv:
يرجى التكرم في ورقةنا إذا كانت هذه الورقة ومجموعة البيانات مفيدة.
@article{deng2022cold,
title="Cold: A benchmark for chinese offensive language detection",
author= "Deng, Jiawen and Zhou, Jingyan and Sun, Hao and Mi, Fei and Huang, Minlie",
booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.emnlp-main.796",
pages = "11580--11599"
}