QBQTC: Korpus Judul Kueri Browser QQ
Kumpulan Data Relevansi Pencarian Browser QQ
Korpus Judul Kueri Browser QQ (QBQTC, Korpus Judul Kueri Browser QQ) adalah anotasi pembelajaran yang saat ini dibangun oleh mesin pencari QQ Browser untuk skenario pencarian besar yang mengintegrasikan relevansi, otoritas, kualitas konten, ketepatan waktu, dan kumpulan data Peringkat Dimensi lainnya (LTR). banyak digunakan dalam skenario bisnis mesin pencari.
Arti korelasi: 0, korelasi buruk; 1, korelasi tertentu; Semakin tinggi angkanya, semakin tinggi pula korelasinya.
set pelatihan (kereta api) | Kumpulan validasi (dev) | Kumpulan pengujian publik (test_public) | Set tes pribadi (tes) |
---|---|---|---|
180.000 | 20.000 | 5.000 | >=10.0000 |
Model | set pelatihan (kereta api) | Kumpulan validasi (dev) | Kumpulan pengujian publik (test_public) | parameter pelatihan |
---|---|---|---|---|
Basis BERT | F1:80.3 Akun:84.3 | F1: 64,9 Akun:72,4 | F1: 64.1 Akun:71.8 | batch=64, panjang=52, epoch=7, lr=2e-5, pemanasan=0,9 |
RoBERTa-wwm-ext | F1:67.9 Akun:76.2 | F1:64.9 Akun:71.5 | F1:64.0 Akun:71.0 | batch=64, panjang=52, epoch=7, lr=2e-5, pemanasan=0,9 |
RoBERTa-wwm-besar-ext | F1:79.8 Akun:84.2 | F1:65.1 Akun:72.4 | F1:66.3 Akun:73.1 | batch=64, panjang=52, epoch=7, lr=2e-5, pemanasan=0,9 |
f1_score berasal dari sklearn.metrics, dan rumus perhitungannya adalah sebagai berikut: F1 = 2 * (precision * recall) / (precision + recall)
使用方式:
1、克隆项目
git clone https://github.com/CLUEbenchmark/QBQTC.git
2、进入到相应的目录
例如:cd QBQTC/baselines
3、下载对应任务模型参数
QBQTC/weights/bert-base-chinese
QBQTC/weights/chinese-roberta-wwm-ext
QBQTC/weights/chinese-roberta-wwm-ext-large
4、运行对应任务的模型(GPU方式):
python BERT.py --model_name_or_path ../weights/chinese-roberta-wwm-ext --max_seq_length 52 --batch_size 64 --num_epochs 7 --learning_rate 2e-5 --num_labels 3
简化版:python BERT.py
{"id": 0, "query": "小孩咳嗽感冒", "title": "小孩感冒过后久咳嗽该吃什么药育儿问答宝宝树", "label": "1"}
{"id": 1, "query": "前列腺癌根治术后能活多久", "title": "前列腺癌转移能活多久前列腺癌治疗方法盘点-家庭医生在线肿瘤频道", "label": "1"}
{"id": 3, "query": "如何将一个文件复制到另一个文件里", "title": "怎么把布局里的图纸复制到另外一个文件中去百度文库", "label": "0"}
{"id": 214, "query": "免费观看电影速度与激情1", "title": "《速度与激情1》全集-高清电影完整版-在线观看", "label": "2"}
{"id": 98, "query": "昆明公积金", "title": "昆明异地购房不能用住房公积金中新网", "label": "2"}
{"id": 217, "query": "多张图片怎么排版好看", "title": "怎么排版图片", "label": "2"}
Kirim sampel
Buat prediksi pengujian pada set pengujian (test.json) dan kirimkan ke sistem evaluasi