Dieses Repository stellt den Pytorch-Quellcode und Daten für Tabellentransformatoren (TabFormer) bereit. Details werden im Papier Tabular Transformers for Modeling Multivariate Time Series beschrieben, das auf der ICASSP 2021 vorgestellt wird.
(X) stellt die Versionen dar, auf denen der Code getestet wird.
Diese können mit Yaml installiert werden, indem Sie Folgendes ausführen:
conda env create -f setup.yml
Der synthetische Kreditkartentransaktionsdatensatz wird in ./data/credit_card bereitgestellt. Es gibt 24 Millionen Datensätze mit 12 Feldern. Sie benötigen git-lfs, um auf die Daten zuzugreifen. Wenn Sie Probleme mit der LFS-Bandbreite haben, können Sie über diesen direkten Link auf die Daten zugreifen. Sie können dann git-lfs-Dateien ignorieren, indem Sie dem Befehl git clone ..
das Präfix GIT_LFS_SKIP_SMUDGE=1
voranstellen.
Für den PRSA-Datensatz muss man den PRSA-Datensatz von Kaggle herunterladen und im Verzeichnis ./data/card ablegen.
Um ein tabellarisches BERT-Modell für Kreditkartentransaktionen oder einen PRSA-Datensatz zu trainieren, führen Sie Folgendes aus:
$ python main.py --do_train --mlm --field_ce --lm_type bert
--field_hs 64 --data_type [prsa/card]
--output_dir [output_dir]
So trainieren Sie ein tabellarisches GPT2-Modell für Kreditkartentransaktionen für eine bestimmte Benutzer-ID :
$ python main.py --do_train --lm_type gpt2 --field_ce --flatten --data_type card
--data_root [path_to_data] --user_ids [user-id]
--output_dir [output_dir]
Beschreibung einiger Optionen (weitere finden Sie in args.py
):
--data_type
Auswahlmöglichkeiten sind prsa
und card
für den Beijing PM2.5-Datensatz bzw. den Kreditkartentransaktionsdatensatz.--mlm
für maskiertes Sprachmodell; Option für Transformatortrainer für BERT--field_hs
versteckte Größe für Feldebenentransformator--lm_type
-Auswahl von bert
und gpt2
--user_ids
, um nur Transaktionen von bestimmten Benutzer-IDs auszuwählen. @inproceedings{padhi2021tabular,
title={Tabular transformers for modeling multivariate time series},
author={Padhi, Inkit and Schiff, Yair and Melnyk, Igor and Rigotti, Mattia and Mroueh, Youssef and Dognin, Pierre and Ross, Jerret and Nair, Ravi and Altman, Erik},
booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={3565--3569},
year={2021},
organization={IEEE},
url={https://ieeexplore.ieee.org/document/9414142}
}