Das offizielle Repository des Papiers: Kalt: Ein Maßstab für die chinesische Offensivsprachenerkennung
中文冒犯语言检测数据集
Papierlink: https://arxiv.org/abs/2201.06025
Detektor: Wir veröffentlichen die Version von Roberta-Base-Cold in Huggingface.
Unser Papier wurde von EMNLP 2022 akzeptiert!
Coldataset enthält 37.480 Kommentare mit binären Offensivetiketten und deckt verschiedene Themen wie Rasse, Geschlecht und Region ab. Um weitere Einblicke in die Datentypen und Eigenschaften zu erhalten, kommentieren wir den Test, der auf feinkörnigem Niveau festgelegt ist, mit vier Kategorien: Angriff von Personen, Angriffsgruppen, Anti-BIAs und anderen nicht-offizierenden.
Die Etiketten in Train.csv und dev.csv:
feinkörniger Label in test.csv:
Bitte zitieren Sie unser Papier, wenn dieses Papier und der Datensatz hilfreich sind.
@article{deng2022cold,
title="Cold: A benchmark for chinese offensive language detection",
author= "Deng, Jiawen and Zhou, Jingyan and Sun, Hao and Mi, Fei and Huang, Minlie",
booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.emnlp-main.796",
pages = "11580--11599"
}