พื้นที่เก็บข้อมูลนี้จัดเตรียมซอร์สโค้ด pytorch และข้อมูลสำหรับหม้อแปลงแบบตาราง (TabFormer) รายละเอียดมีการอธิบายไว้ในรายงาน Transformers แบบตารางสำหรับการสร้างแบบจำลองอนุกรมเวลาหลายตัวแปร ซึ่งจะนำเสนอที่ ICASSP 2021
(X) หมายถึงเวอร์ชันที่ใช้ทดสอบโค้ด
สามารถติดตั้งได้โดยใช้ yaml โดยเรียกใช้:
conda env create -f setup.yml
ชุดข้อมูลธุรกรรมบัตรเครดิตสังเคราะห์มีอยู่ใน ./data/credit_card มีบันทึก 24 ล้านรายการพร้อม 12 ฟิลด์ คุณจะต้องใช้ git-lfs เพื่อเข้าถึงข้อมูล หากคุณกำลังประสบปัญหาเกี่ยวกับแบนด์วิดท์ LFS คุณสามารถใช้ลิงก์โดยตรงนี้เพื่อเข้าถึงข้อมูลได้ จากนั้น คุณสามารถละเว้นไฟล์ git-lfs ได้โดยเติม GIT_LFS_SKIP_SMUDGE=1
นำหน้าคำสั่ง git clone ..
สำหรับชุดข้อมูล PRSA จะต้องดาวน์โหลดชุดข้อมูล PRSA จาก Kaggle และวางไว้ในไดเร็กทอรี ./data/card
วิธีฝึกโมเดล BERT แบบตารางเกี่ยวกับธุรกรรมบัตรเครดิตหรือการเรียกใช้ชุดข้อมูล PRSA :
$ python main.py --do_train --mlm --field_ce --lm_type bert
--field_hs 64 --data_type [prsa/card]
--output_dir [output_dir]
หากต้องการฝึกโมเดล GPT2 แบบตารางเกี่ยวกับธุรกรรมบัตรเครดิตสำหรับ รหัสผู้ใช้ เฉพาะ ให้ทำดังนี้
$ python main.py --do_train --lm_type gpt2 --field_ce --flatten --data_type card
--data_root [path_to_data] --user_ids [user-id]
--output_dir [output_dir]
คำอธิบายของตัวเลือกบางอย่าง (สามารถดูเพิ่มเติมได้ใน args.py
):
--data_type
ตัวเลือกคือ prsa
และ card
สำหรับชุดข้อมูล Beijing PM2.5 และชุดข้อมูลธุรกรรมบัตรเครดิตตามลำดับ--mlm
สำหรับโมเดลภาษาที่สวมหน้ากาก; ตัวเลือกสำหรับผู้ฝึกสอนหม้อแปลงไฟฟ้าสำหรับ BERT--field_hs
ขนาดที่ซ่อนอยู่สำหรับหม้อแปลงระดับสนาม--lm_type
ตัวเลือกจาก bert
และ gpt2
--user_ids
ตัวเลือกเพื่อเลือกเฉพาะธุรกรรมจากรหัสผู้ใช้เฉพาะ @inproceedings{padhi2021tabular,
title={Tabular transformers for modeling multivariate time series},
author={Padhi, Inkit and Schiff, Yair and Melnyk, Igor and Rigotti, Mattia and Mroueh, Youssef and Dognin, Pierre and Ross, Jerret and Nair, Ravi and Altman, Erik},
booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={3565--3569},
year={2021},
organization={IEEE},
url={https://ieeexplore.ieee.org/document/9414142}
}