COLDataset
1.0.0
논문의 공식 저장소 : Cold : 중국어 공격 언어 탐지를위한 벤치 마크
中文冒犯语言检测数据集
종이 링크 : https://arxiv.org/abs/2201.06025
탐지기 : 우리는 Huggingface에서 Roberta-Base-Cold의 버전을 해제합니다.
우리 논문은 EMNLP 2022에 의해 받아 들여졌습니다!
Coldataset에는 이진 공격 라벨이 포함 된 37,480 개의 의견이 포함되어 있으며 인종, 성별 및 지역의 다양한 주제를 다룹니다. 데이터 유형 및 특성에 대한 추가 통찰력을 얻으려면 개인 공격, 공격 그룹, 반 바이어스 및 기타 비 관습의 네 가지 범주로 세밀한 수준으로 테스트 세트에 세트를 주석을 달 수 있습니다.
Train.csv 및 dev.csv의 레이블 :
test.csv의 세밀한 라벨 :
이 논문과 데이터 세트가 도움이된다면 신문을 친절하게 인용하십시오.
@article{deng2022cold,
title="Cold: A benchmark for chinese offensive language detection",
author= "Deng, Jiawen and Zhou, Jingyan and Sun, Hao and Mi, Fei and Huang, Minlie",
booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.emnlp-main.796",
pages = "11580--11599"
}