LAUG는 언어 이해 AUGmentation을 위한 오픈 소스 툴킷입니다. 이는 기존 데이터의 자연적인 섭동을 근사화하는 자동 방법입니다. 증강 데이터를 사용하여 블랙박스 견고성 테스트를 수행하거나 교육을 강화할 수 있습니다. [종이]
파이썬 3.6이 필요합니다.
다음 저장소를 복제하세요.
git clone https://github.com/thu-coai/LAUG.git
pip를 통해 설치:
cd LAUG
pip install -e .
데이터 및 모델 다운로드:
우리 논문에 사용된 데이터와 우리가 사전 훈련한 모델 매개 변수는 Link에서 확인할 수 있습니다. 다운로드하여 해당 디렉토리에 배치하십시오. 다른 사람이 공개한 모델 매개변수는 LAUG/aug/Speech_Recognition/README.md
등 각 기능 보강 방법의 디렉토리에 있는 README.md
를 참조하세요.
우리 논문에 설명된 4가지 확대 방법은 다음과 같습니다. LAUG/aug
dir 아래에 위치합니다.
Word_Perturbation/
dir.Text_Paraphrasing/
dir에 있는 텍스트 패러프레이징(TP).Speech_Recognition/
dir.Speech_Disfluency/
dir.자세한 내용은 각 증강 방법에 대한 논문과 README.md를 참조하세요.
이러한 기능 보강 방법의 사용법은 demo.py
참조하세요.
python demo.py
우리의 증강 방법에는 여러 신경 모델이 포함되어 있으므로 사전 훈련된 매개변수를 사용하기 전에 다운로드해야 합니다. 우리가 사전 훈련한 매개변수는 Link에서 사용할 수 있습니다. 다른 사람이 공개한 매개변수의 경우 각 방법의 지침을 따르십시오.
우리 논문에 사용된 데이터는 Link에서 확인할 수 있습니다. 다운로드하여 data/
dir에 배치하세요.
우리의 데이터에는 MultiWOZ 및 프레임이라는 2개의 데이터세트와 그 증가된 복사본이 포함되어 있습니다.
멀티WOZ
data/multiwoz/
dir에 배치합니다.data/multiwoz/WP
에 배치됩니다.data/multiwoz/TP
에 배치됩니다.data/multiwoz/SR
에 배치됨.data/multiwoz/SD
에 배치됨.data/multiwoz/Enhanced
에 배치.data/multiwoz/Real
dir에 배치합니다.프레임
data/Frames/
dir에 배치합니다.data/Frames/WP
에 배치됩니다.data/Frames/TP
에 배치됩니다.data/Frames/SR
에 배치됩니다.data/Frames/SD
에 배치됩니다.data/Frames/Enhanced
에 배치. 우리는 논문에 설명된 네 가지 기본 NLU 모델을 제공합니다.
이 모델은 ConvLab-2에서 채택되었습니다. 자세한 내용은 LAUG/nlu/gpt/multiwoz/README.md
와 같이 LUAG/nlu/$model/$dataset
디렉터리 아래 README.md
를 참조하세요.
연구에 LAUG를 사용하는 경우 다음을 인용해 주세요.
@inproceedings{liu2021robustness,
title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
year={2021},
booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}
아파치 라이선스 2.0