Repositori resmi makalah: Dingin: tolok ukur untuk deteksi bahasa ofensif Cina
中文冒犯语言检测数据集
Tautan kertas: https://arxiv.org/abs/2201.06025
Detektor: Kami merilis versi Roberta-Base-Cold di Huggingface.
Makalah kami telah diterima oleh EMNLP 2022!
Coldataset berisi 37.480 komentar dengan label ofensif biner dan mencakup beragam topik ras, jenis kelamin, dan wilayah. Untuk mendapatkan wawasan lebih lanjut tentang tipe dan karakteristik data, kami memberi anotasi tes yang ditetapkan pada tingkat berbutir halus dengan empat kategori: menyerang individu, kelompok penyerang, anti-bias dan non-ofensif lainnya.
Label di train.csv dan dev.csv:
label berbutir halus di test.csv:
Harap silakan mengutip kertas kami jika makalah ini dan dataset sangat membantu.
@article{deng2022cold,
title="Cold: A benchmark for chinese offensive language detection",
author= "Deng, Jiawen and Zhou, Jingyan and Sun, Hao and Mi, Fei and Huang, Minlie",
booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.emnlp-main.796",
pages = "11580--11599"
}