COLDataset 다운로드 - COLDataset 소스 코드 다운로드

COLDataset

기타 소스코드

1.0.0

다운로드

Coldataset

논문의 공식 저장소 : Cold : 중국어 공격 언어 탐지를위한 벤치 마크

中文冒犯语言检测数据集

종이 링크 : https://arxiv.org/abs/2201.06025

탐지기 : 우리는 Huggingface에서 Roberta-Base-Cold의 버전을 해제합니다.

소식

우리 논문은 EMNLP 2022에 의해 받아 들여졌습니다!

정보

Coldataset에는 이진 공격 라벨이 포함 된 37,480 개의 의견이 포함되어 있으며 인종, 성별 및 지역의 다양한 주제를 다룹니다. 데이터 유형 및 특성에 대한 추가 통찰력을 얻으려면 개인 공격, 공격 그룹, 반 바이어스 및 기타 비 관습의 네 가지 범주로 세밀한 수준으로 테스트 세트에 세트를 주석을 달 수 있습니다.

Train.csv 및 dev.csv의 레이블 :

레이블 0 : 안전하고
라벨 1 : 공격

test.csv의 세밀한 라벨 :

0 : 안전한 (기타-오버 텐)
1 : 개인을 공격하십시오
2 : 공격 그룹
3 : 안전 (안티 바이어스)

인용

이 논문과 데이터 세트가 도움이된다면 신문을 친절하게 인용하십시오.

  @article{deng2022cold,
  title="Cold: A benchmark for chinese offensive language detection",
  author= "Deng, Jiawen and Zhou, Jingyan and Sun, Hao and Mi, Fei and Huang, Minlie",
  booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
  month = dec,
  year = "2022",
  address = "Abu Dhabi, United Arab Emirates",
  publisher = "Association for Computational Linguistics",
  url = "https://aclanthology.org/2022.emnlp-main.796",
  pages = "11580--11599"
}

확장하다

추가 정보