يوفر هذا المستودع كود مصدر pytorch وبيانات للمحولات الجدولية (TabFormer). تم توضيح التفاصيل في ورقة المحولات الجدولية لنمذجة السلاسل الزمنية متعددة المتغيرات، والتي سيتم تقديمها في ICASSP 2021.
(X) يمثل الإصدارات التي تم اختبار الكود عليها.
يمكن تثبيتها باستخدام yaml عن طريق تشغيل:
conda env create -f setup.yml
يتم توفير مجموعة بيانات معاملات بطاقة الائتمان الاصطناعية في ./data/credit_card. هناك 24 مليون سجل مع 12 حقلاً. ستحتاج إلى git-lfs للوصول إلى البيانات. إذا كنت تواجه مشكلة تتعلق بعرض النطاق الترددي LFS، فيمكنك استخدام هذا الرابط المباشر للوصول إلى البيانات. يمكنك بعد ذلك تجاهل ملفات git-lfs عن طريق إضافة GIT_LFS_SKIP_SMUDGE=1
إلى أمر git clone ..
...
بالنسبة لمجموعة بيانات PRSA، يتعين على المرء تنزيل مجموعة بيانات PRSA من Kaggle ووضعها في دليل ./data/card.
لتدريب نموذج BERT جدولي على معاملة بطاقة الائتمان أو تشغيل مجموعة بيانات PRSA:
$ python main.py --do_train --mlm --field_ce --lm_type bert
--field_hs 64 --data_type [prsa/card]
--output_dir [output_dir]
لتدريب نموذج GPT2 جدولي على معاملات بطاقات الائتمان لمعرف مستخدم معين:
$ python main.py --do_train --lm_type gpt2 --field_ce --flatten --data_type card
--data_root [path_to_data] --user_ids [user-id]
--output_dir [output_dir]
وصف بعض الخيارات (يمكن العثور على المزيد في args.py
):
--data_type
هي prsa
card
لمجموعة بيانات بكين PM2.5 ومجموعة بيانات معاملات بطاقة الائتمان على التوالي.--mlm
لنموذج اللغة المقنعة؛ خيار لمدرب المحولات لـ BERT--field_hs
الحجم المخفي لمحول مستوى الحقل--lm_type
اختيارات من bert
و gpt2
--user_ids
خيار لاختيار المعاملات من معرفات مستخدمين معينة فقط. @inproceedings{padhi2021tabular,
title={Tabular transformers for modeling multivariate time series},
author={Padhi, Inkit and Schiff, Yair and Melnyk, Igor and Rigotti, Mattia and Mroueh, Youssef and Dognin, Pierre and Ross, Jerret and Nair, Ravi and Altman, Erik},
booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={3565--3569},
year={2021},
organization={IEEE},
url={https://ieeexplore.ieee.org/document/9414142}
}