COLDataset
1.0.0
ที่เก็บอย่างเป็นทางการของกระดาษ: เย็น: มาตรฐานสำหรับการตรวจจับภาษาที่น่ารังเกียจของจีน
中文冒犯语言检测数据集
ลิงค์กระดาษ: https://arxiv.org/abs/2201.06025
Detector: เราเปิดตัวเวอร์ชันของ Roberta-Base-Cold ใน HuggingFace
บทความของเราได้รับการยอมรับจาก EMNLP 2022!
Coldataset มีความคิดเห็น 37,480 ความคิดเห็นพร้อมป้ายกำกับที่น่ารังเกียจแบบไบนารีและครอบคลุมหัวข้อที่หลากหลายของเชื้อชาติเพศและภูมิภาค เพื่อให้ได้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับประเภทข้อมูลและลักษณะเราใส่คำอธิบายประกอบการทดสอบในระดับที่ดีด้วยสี่หมวดหมู่: โจมตีบุคคลการโจมตีกลุ่มต่อต้านอคติและอื่น ๆ ที่ไม่น่ารังเกียจ
ฉลากใน Train.csv และ dev.csv:
ฉลากที่ละเอียดในการทดสอบ CSV:
โปรดกรุณาอ้างอิงกระดาษของเราหากบทความนี้และชุดข้อมูลมีประโยชน์
@article{deng2022cold,
title="Cold: A benchmark for chinese offensive language detection",
author= "Deng, Jiawen and Zhou, Jingyan and Sun, Hao and Mi, Fei and Huang, Minlie",
booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
month = dec,
year = "2022",
address = "Abu Dhabi, United Arab Emirates",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.emnlp-main.796",
pages = "11580--11599"
}