Este repositório fornece o código-fonte pytorch e dados para transformadores tabulares (TabFormer). Os detalhes estão descritos no artigo Tabular Transformers for Modeling Multivariate Time Series, a ser apresentado no ICASSP 2021.
(X) representa as versões nas quais o código é testado.
Eles podem ser instalados usando yaml executando:
conda env create -f setup.yml
O conjunto de dados de transações de cartão de crédito sintético é fornecido em ./data/credit_card. Existem 24 milhões de registros com 12 campos. Você precisaria do git-lfs para acessar os dados. Se você estiver enfrentando problemas relacionados à largura de banda do LFS, poderá usar este link direto para acessar os dados. Você pode então ignorar os arquivos git-lfs prefixando GIT_LFS_SKIP_SMUDGE=1
ao comando git clone ..
Para o conjunto de dados PRSA, é necessário baixar o conjunto de dados PRSA do Kaggle e colocá-los no diretório ./data/card.
Para treinar um modelo tabular de BERT em transações de cartão de crédito ou execução de conjunto de dados PRSA:
$ python main.py --do_train --mlm --field_ce --lm_type bert
--field_hs 64 --data_type [prsa/card]
--output_dir [output_dir]
Para treinar um modelo tabular GPT2 em transações de cartão de crédito para um ID de usuário específico:
$ python main.py --do_train --lm_type gpt2 --field_ce --flatten --data_type card
--data_root [path_to_data] --user_ids [user-id]
--output_dir [output_dir]
Descrição de algumas opções (mais podem ser encontradas em args.py
):
--data_type
são prsa
e card
para o conjunto de dados PM2.5 de Pequim e o conjunto de dados de transações de cartão de crédito, respectivamente.--mlm
para modelo de linguagem mascarada; opção de treinador de transformador para BERT--field_hs
tamanho oculto para transformador de nível de campo--lm_type
escolhas de bert
e gpt2
--user_ids
para escolher apenas transações de IDs de usuários específicos. @inproceedings{padhi2021tabular,
title={Tabular transformers for modeling multivariate time series},
author={Padhi, Inkit and Schiff, Yair and Melnyk, Igor and Rigotti, Mattia and Mroueh, Youssef and Dognin, Pierre and Ross, Jerret and Nair, Ravi and Altman, Erik},
booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={3565--3569},
year={2021},
organization={IEEE},
url={https://ieeexplore.ieee.org/document/9414142}
}