transformers data augmentation 다운로드 - transformers data augmentation 소스 코드 다운로드

transformers data augmentation

기타 소스코드

1.0.0

다운로드

사전 훈련된 변환기 모델을 사용한 데이터 확대

사전 훈련된 변환기 모델을 사용한 데이터 증대와 관련된 코드 문서

코드에는 다음과 같은 데이터 증대 방법의 구현이 포함되어 있습니다.

EDA(기준선)
역번역(기준)
CBERT(기준선)
BERT Prepend (우리 논문)
GPT-2 Prepend (우리 논문)
BART Prepend (우리 논문)

데이터세트

논문에서는 다음 리소스의 세 가지 데이터 세트를 사용합니다.

STSA-2: https://github.com/1024er/cbert_aug/tree/crayon/datasets/stsa.binary
TREC : https://github.com/1024er/cbert_aug/tree/crayon/datasets/TREC
SNIPS : https://github.com/MiuLab/SlotGated-SLU/tree/master/data/snips

낮은 데이터 체제 실험 설정

src/utils/download_and_prepare_datasets.sh 파일을 실행하여 모든 데이터 세트를 준비합니다.
download_and_prepare_datasets.sh 다음 단계를 수행합니다.

Github에서 데이터 다운로드
STSA-2 및 TREC 데이터 세트의 숫자 레이블을 텍스트로 바꿉니다.
특정 데이터 세트에 대해 열차 및 개발 데이터의 무작위 분할 15개를 생성합니다.

종속성

이 코드를 실행하려면 다음 종속성이 필요합니다.

파이토치 1.5
페어시크 0.9
트랜스포머 2.9

실행 방법

특정 데이터세트에 대한 데이터 증대 실험을 실행하려면 scripts 폴더에서 bash 스크립트를 실행하세요. 예를 들어, snips 데이터 세트에서 데이터 증대를 실행하려면 다음을 수행합니다.

BART 실험을 위해 scripts/bart_snips_lower.sh 실행하세요.
나머지 데이터 증대 방법은 scripts/bert_snips_lower.sh 실행하세요.

인용 방법

 @inproceedings{kumar-etal-2020-data,
    title = "Data Augmentation using Pre-trained Transformer Models",
    author = "Kumar, Varun  and
      Choudhary, Ashutosh  and
      Cho, Eunah",
    booktitle = "Proceedings of the 2nd Workshop on Life-long Learning for Spoken Language Systems",
    month = dec,
    year = "2020",
    address = "Suzhou, China",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.lifelongnlp-1.3",
    pages = "18--26",
}