COLDataset
1.0.0
論文の公式リポジトリ:コールド:中国の攻撃言語検出のためのベンチマーク
中文冒犯语言检测数据集
紙リンク:https://arxiv.org/abs/2201.06025
検出器:HuggingfaceでRoberta-Base-Coldのバージョンをリリースします。
私たちの論文はEMNLP 2022によって受け入れられました!
Coldatasetには、バイナリの攻撃ラベルを備えた37,480のコメントが含まれており、人種、性別、地域の多様なトピックをカバーしています。データ型と特性に関するさらなる洞察を得るために、攻撃者、攻撃グループ、反バイアス、その他の非攻撃的な4つのカテゴリを微調整されたレベルでテストセットに注釈します。
train.csvおよびdev.csvのラベル:
test.csvの細かいラベル:
このペーパーとデータセットが役立つ場合は、私たちの論文をお願いします。
@article{deng2022cold,
title="Cold: A benchmark for chinese offensive language detection",
author= "Deng, Jiawen and Zhou, Jingyan and Sun, Hao and Mi, Fei and Huang, Minlie",
booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.emnlp-main.796",
pages = "11580--11599"
}