El repositorio oficial del documento: frío: un punto de referencia para la detección de idiomas ofensivos chinos
中文冒犯语言检测数据集
Enlace en papel: https://arxiv.org/abs/2201.06025
Detector: Lanzamos la versión de Roberta-Base-Cold en Huggingface.
¡Nuestro artículo ha sido aceptado por EMNLP 2022!
ColdataSet contiene 37,480 comentarios con etiquetas ofensivas binarias y cubre diversos temas de raza, género y región. Para obtener más información sobre los tipos y características de datos, anotamos el conjunto de pruebas en un nivel de grano fino con cuatro categorías: individuos atacantes, grupos de ataque, anti-sesgo y otros no ofensivos.
Las etiquetas en trenes.csv y dev.csv:
etiqueta de grano fino en test.csv:
Por favor, cita nuestro documento si este documento y el conjunto de datos son útiles.
@article{deng2022cold,
title="Cold: A benchmark for chinese offensive language detection",
author= "Deng, Jiawen and Zhou, Jingyan and Sun, Hao and Mi, Fei and Huang, Minlie",
booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.emnlp-main.796",
pages = "11580--11599"
}