Le référentiel officiel du journal: Cold: une référence pour la détection chinoise de la langue offensive
中文冒犯语言检测数据集
Lien papier: https://arxiv.org/abs/2201.06025
Détecteur: Nous publions la version de Roberta-Base-Cold dans HuggingFace.
Notre article a été accepté par EMNLP 2022!
Coldataset contient 37 480 commentaires avec des étiquettes offensives binaires et couvre divers sujets de race, de sexe et de région. Pour mieux comprendre les types de données et les caractéristiques, nous annotons le test défini à un niveau fin avec quatre catégories: les individus attaquants, les groupes attaquants, les anti-biais et autres non-offensifs.
Les étiquettes dans Train.csv et Dev.CSV:
Étiquette à grain fin dans Test.csv:
Veuillez citer notre article si cet article et l'ensemble de données sont utiles.
@article{deng2022cold,
title="Cold: A benchmark for chinese offensive language detection",
author= "Deng, Jiawen and Zhou, Jingyan and Sun, Hao and Mi, Fei and Huang, Minlie",
booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.emnlp-main.796",
pages = "11580--11599"
}