Этот репозиторий предоставляет исходный код pytorch и данные для табличных преобразователей (TabFormer). Подробности описаны в документе «Табличные трансформаторы для моделирования многомерных временных рядов», который будет представлен на ICASSP 2021.
(X) представляет версии, на которых тестируется код.
Их можно установить с помощью yaml, запустив:
conda env create -f setup.yml
Набор данных о транзакциях по синтетической кредитной карте представлен в файле ./data/credit_card. Имеется 24 миллиона записей с 12 полями. Для доступа к данным вам понадобится git-lfs. Если вы столкнулись с проблемой, связанной с пропускной способностью LFS, вы можете использовать эту прямую ссылку для доступа к данным. Затем вы можете игнорировать файлы git-lfs, добавив префикс GIT_LFS_SKIP_SMUDGE=1
к команде git clone ..
Для набора данных PRSA необходимо загрузить набор данных PRSA из Kaggle и поместить их в каталог ./data/card.
Чтобы обучить табличную модель BERT транзакциям по кредитной карте или набору данных PRSA, выполните:
$ python main.py --do_train --mlm --field_ce --lm_type bert
--field_hs 64 --data_type [prsa/card]
--output_dir [output_dir]
Чтобы обучить табличную модель GPT2 транзакциям по кредитным картам для определенного идентификатора пользователя :
$ python main.py --do_train --lm_type gpt2 --field_ce --flatten --data_type card
--data_root [path_to_data] --user_ids [user-id]
--output_dir [output_dir]
Описание некоторых опций (подробнее можно найти в args.py
):
--data_type
выбор prsa
и card
для набора данных Beijing PM2.5 и набора данных транзакций по кредитным картам соответственно.--mlm
для модели языка в масках; вариант трансформаторного тренажера для BERT--field_hs
скрытый размер для преобразователя уровня поля--lm_type
выбор из bert
и gpt2
--user_ids
для выбора только транзакций с определенными идентификаторами пользователей. @inproceedings{padhi2021tabular,
title={Tabular transformers for modeling multivariate time series},
author={Padhi, Inkit and Schiff, Yair and Melnyk, Igor and Rigotti, Mattia and Mroueh, Youssef and Dognin, Pierre and Ross, Jerret and Nair, Ravi and Altman, Erik},
booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={3565--3569},
year={2021},
organization={IEEE},
url={https://ieeexplore.ieee.org/document/9414142}
}