COLDataset скачать - COLDataset исходный код скачать

COLDataset

Другой исходный код

1.0.0

Скачать

Coldataset

Официальный репозиторий статьи: холод: эталон для обнаружения наступательного языка в Китае

中文冒犯语言检测数据集

Бумажная ссылка: https://arxiv.org/abs/2201.06025

Детектор: мы выпускаем версию Roberta-Base-Hold в Huggingface.

Новости

Наша статья была принята EMNLP 2022!

Информация

Coldataset содержит 37 480 комментариев с бинарными наступательными ярлыками и охватывает различные темы расы, пол и региона. Чтобы получить дополнительную информацию о типах и характеристиках данных, мы аннотируем тестовый набор на мелкозернистом уровне с четырьмя категориями: атакующие люди, атакующие группы, анти-смещения и другие не оскорбительные.

Метки в Train.csv и dev.csv:

метка 0: безопасно,
Метка 1: оскорбительный

мелкозернистая марка в Test.csv:

0: безопасно (другие не ограждая)
1: атаковать индивидуальные
2: группа атаки
3: безопасно (анти-смеение)

Цитируя

Пожалуйста, обратитесь к нашей статье, если эта статья и набор данных полезны.

  @article{deng2022cold,
  title="Cold: A benchmark for chinese offensive language detection",
  author= "Deng, Jiawen and Zhou, Jingyan and Sun, Hao and Mi, Fei and Huang, Minlie",
  booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
  month = dec,
  year = "2022",
  address = "Abu Dhabi, United Arab Emirates",
  publisher = "Association for Computational Linguistics",
  url = "https://aclanthology.org/2022.emnlp-main.796",
  pages = "11580--11599"
}

Расширять

Дополнительная информация