Unduh COLDataset - Unduh Kode Sumber COLDataset

COLDataset

Kode sumber lainnya

1.0.0

Unduh

Coldataset

Repositori resmi makalah: Dingin: tolok ukur untuk deteksi bahasa ofensif Cina

中文冒犯语言检测数据集

Tautan kertas: https://arxiv.org/abs/2201.06025

Detektor: Kami merilis versi Roberta-Base-Cold di Huggingface.

Berita

Makalah kami telah diterima oleh EMNLP 2022!

Info

Coldataset berisi 37.480 komentar dengan label ofensif biner dan mencakup beragam topik ras, jenis kelamin, dan wilayah. Untuk mendapatkan wawasan lebih lanjut tentang tipe dan karakteristik data, kami memberi anotasi tes yang ditetapkan pada tingkat berbutir halus dengan empat kategori: menyerang individu, kelompok penyerang, anti-bias dan non-ofensif lainnya.

Label di train.csv dan dev.csv:

Label 0: Aman,
Label 1: Ofensif

label berbutir halus di test.csv:

0: aman (non-offen lainnya)
1: Serang Individu
2: Grup Serangan
3: Aman (anti-bias)

Mengutip

Harap silakan mengutip kertas kami jika makalah ini dan dataset sangat membantu.

  @article{deng2022cold,
  title="Cold: A benchmark for chinese offensive language detection",
  author= "Deng, Jiawen and Zhou, Jingyan and Sun, Hao and Mi, Fei and Huang, Minlie",
  booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
  month = dec,
  year = "2022",
  address = "Abu Dhabi, United Arab Emirates",
  publisher = "Association for Computational Linguistics",
  url = "https://aclanthology.org/2022.emnlp-main.796",
  pages = "11580--11599"
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-08
ukuran 2.63MB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
Sunamu

Kode sumber lainnya

Release 2.2.0
MySchedule.py

Kode sumber lainnya

Updates to the fetching of week codes
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua