COLDatasetのダウンロード - COLDatasetソースコードのダウンロード

COLDataset

その他のソースコード

1.0.0

ダウンロード

coldataset

論文の公式リポジトリ：コールド：中国の攻撃言語検出のためのベンチマーク

中文冒犯语言检测数据集

紙リンク：https：//arxiv.org/abs/2201.06025

検出器：HuggingfaceでRoberta-Base-Coldのバージョンをリリースします。

ニュース

私たちの論文はEMNLP 2022によって受け入れられました！

情報

Coldatasetには、バイナリの攻撃ラベルを備えた37,480のコメントが含まれており、人種、性別、地域の多様なトピックをカバーしています。データ型と特性に関するさらなる洞察を得るために、攻撃者、攻撃グループ、反バイアス、その他の非攻撃的な4つのカテゴリを微調整されたレベルでテストセットに注釈します。

train.csvおよびdev.csvのラベル：

ラベル0：安全、
ラベル1：攻撃

test.csvの細かいラベル：

0：SAFE（other-ofren）
1：個人を攻撃します
2：攻撃グループ
3：安全（抗バイアス）

引用

このペーパーとデータセットが役立つ場合は、私たちの論文をお願いします。

  @article{deng2022cold,
  title="Cold: A benchmark for chinese offensive language detection",
  author= "Deng, Jiawen and Zhou, Jingyan and Sun, Hao and Mi, Fei and Huang, Minlie",
  booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
  month = dec,
  year = "2022",
  address = "Abu Dhabi, United Arab Emirates",
  publisher = "Association for Computational Linguistics",
  url = "https://aclanthology.org/2022.emnlp-main.796",
  pages = "11580--11599"
}

拡大する

追加情報