TabFormer
1.0.0
이 저장소는 pytorch 소스 코드와 테이블 형식 변환기(TabFormer)에 대한 데이터를 제공합니다. 자세한 내용은 ICASSP 2021에서 발표될 다변량 시계열 모델링을 위한 테이블 형식 변환기(Tabular Transformers for Modeling Multivariate Time Series) 논문에 설명되어 있습니다.
(X)는 코드가 테스트된 버전을 나타냅니다.
다음을 실행하여 yaml을 사용하여 설치할 수 있습니다.
conda env create -f setup.yml
합성 신용카드 거래 데이터세트는 ./data/credit_card에 제공됩니다. 12개 필드가 포함된 2,400만 개의 레코드가 있습니다. 데이터에 액세스하려면 git-lfs가 필요합니다. LFS 대역폭과 관련된 문제에 직면한 경우 이 직접 링크를 사용하여 데이터에 액세스할 수 있습니다. 그런 다음 git clone ..
명령에 GIT_LFS_SKIP_SMUDGE=1
접두사를 추가하여 git-lfs 파일을 무시할 수 있습니다.
PRSA 데이터 세트의 경우 Kaggle에서 PRSA 데이터 세트를 다운로드하여 ./data/card 디렉토리에 배치해야 합니다.
신용카드 거래 또는 PRSA 데이터세트에 대한 테이블 형식 BERT 모델을 학습하려면 다음을 실행하세요.
$ python main.py --do_train --mlm --field_ce --lm_type bert
--field_hs 64 --data_type [prsa/card]
--output_dir [output_dir]
특정 사용자 ID 에 대한 신용 카드 거래에 대한 테이블 형식 GPT2 모델을 학습하려면 다음을 수행하세요.
$ python main.py --do_train --lm_type gpt2 --field_ce --flatten --data_type card
--data_root [path_to_data] --user_ids [user-id]
--output_dir [output_dir]
일부 옵션에 대한 설명(자세한 내용은 args.py
에서 찾을 수 있음):
--data_type
선택 사항은 각각 베이징 PM2.5 데이터 세트와 신용 카드 거래 데이터 세트에 대한 prsa
및 card
입니다.--mlm
마스크된 언어 모델의 경우; BERT용 변압기 트레이너 옵션--field_hs
필드 레벨 변환기의 숨겨진 크기bert
및 gpt2
에서 --lm_type
선택--user_ids
옵션은 특정 사용자 ID의 거래만 선택합니다. @inproceedings{padhi2021tabular,
title={Tabular transformers for modeling multivariate time series},
author={Padhi, Inkit and Schiff, Yair and Melnyk, Igor and Rigotti, Mattia and Mroueh, Youssef and Dognin, Pierre and Ross, Jerret and Nair, Ravi and Altman, Erik},
booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={3565--3569},
year={2021},
organization={IEEE},
url={https://ieeexplore.ieee.org/document/9414142}
}