Este repositorio proporciona el código fuente de pytorch y datos para transformadores tabulares (TabFormer). Los detalles se describen en el artículo Tabular Transformers for Modeling Multivariate Time Series, que se presentará en ICASSP 2021.
(X) representa las versiones en las que se prueba el código.
Estos se pueden instalar usando yaml ejecutando:
conda env create -f setup.yml
El conjunto de datos sintéticos de transacciones con tarjeta de crédito se proporciona en ./data/credit_card. Hay 24 millones de registros con 12 campos. Necesitaría git-lfs para acceder a los datos. Si tiene problemas relacionados con el ancho de banda de LFS, puede utilizar este enlace directo para acceder a los datos. Luego puede ignorar los archivos git-lfs anteponiendo GIT_LFS_SKIP_SMUDGE=1
al comando git clone ..
Para el conjunto de datos PRSA, es necesario descargar el conjunto de datos PRSA de Kaggle y colocarlos en el directorio ./data/card.
Para entrenar un modelo BERT tabular sobre transacciones con tarjeta de crédito o ejecutar un conjunto de datos PRSA:
$ python main.py --do_train --mlm --field_ce --lm_type bert
--field_hs 64 --data_type [prsa/card]
--output_dir [output_dir]
Para entrenar un modelo GPT2 tabular sobre transacciones con tarjeta de crédito para una identificación de usuario particular:
$ python main.py --do_train --lm_type gpt2 --field_ce --flatten --data_type card
--data_root [path_to_data] --user_ids [user-id]
--output_dir [output_dir]
Descripción de algunas opciones (puede encontrar más en args.py
):
--data_type
son prsa
y card
para el conjunto de datos PM2.5 de Beijing y el conjunto de datos de transacciones con tarjeta de crédito, respectivamente.--mlm
para modelo de lenguaje enmascarado; Opción para entrenador de transformador para BERT.--field_hs
tamaño oculto para transformador de nivel de campo--lm_type
opciones de bert
y gpt2
--user_ids
para seleccionar solo transacciones de ID de usuario particulares. @inproceedings{padhi2021tabular,
title={Tabular transformers for modeling multivariate time series},
author={Padhi, Inkit and Schiff, Yair and Melnyk, Igor and Rigotti, Mattia and Mroueh, Youssef and Dognin, Pierre and Ross, Jerret and Nair, Ravi and Altman, Erik},
booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={3565--3569},
year={2021},
organization={IEEE},
url={https://ieeexplore.ieee.org/document/9414142}
}