Официальный репозиторий статьи: холод: эталон для обнаружения наступательного языка в Китае
中文冒犯语言检测数据集
Бумажная ссылка: https://arxiv.org/abs/2201.06025
Детектор: мы выпускаем версию Roberta-Base-Hold в Huggingface.
Наша статья была принята EMNLP 2022!
Coldataset содержит 37 480 комментариев с бинарными наступательными ярлыками и охватывает различные темы расы, пол и региона. Чтобы получить дополнительную информацию о типах и характеристиках данных, мы аннотируем тестовый набор на мелкозернистом уровне с четырьмя категориями: атакующие люди, атакующие группы, анти-смещения и другие не оскорбительные.
Метки в Train.csv и dev.csv:
мелкозернистая марка в Test.csv:
Пожалуйста, обратитесь к нашей статье, если эта статья и набор данных полезны.
@article{deng2022cold,
title="Cold: A benchmark for chinese offensive language detection",
author= "Deng, Jiawen and Zhou, Jingyan and Sun, Hao and Mi, Fei and Huang, Minlie",
booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.emnlp-main.796",
pages = "11580--11599"
}