LAUG
1.0.0
LAUG是一個用於語言理解 AUGmentation 的開源工具包。它是一種對現有資料進行近似自然擾動的自動方法。增強資料可用於進行黑盒穩健性測試或增強訓練。 [紙]
需要 python 3.6。
克隆此存儲庫:
git clone https://github.com/thu-coai/LAUG.git
透過 pip 安裝:
cd LAUG
pip install -e .
下載資料和模型:
我們論文中使用的數據和我們預先訓練的模型參數可以在連結中找到。請下載並放置到對應的目錄中。其他人所發布的模型參數請參考各增強方法目錄下的README.md
,如LAUG/aug/Speech_Recognition/README.md
。
以下是我們論文中描述的 4 種增強方法。它們位於LAUG/aug
目錄下。
Word_Perturbation/
目錄。Text_Paraphrasing/
目錄。Speech_Recognition/
目錄。Speech_Disfluency/
目錄。請參閱我們的論文和每種增強方法中的 README.md 以獲取詳細資訊。
有關這些增強方法的用法,請參閱demo.py
python demo.py
請注意,我們的增強方法包含多個神經模型,因此需要在使用前下載預先訓練的參數。我們預先訓練的參數可以在 Link 上找到。對於其他人發布的參數,請按照各方法的說明進行操作。
我們論文中使用的數據可在連結中找到。請下載它並將其放置在data/
目錄中。
我們的資料包含 2 個資料集:MultiWOZ 和 Frames,以及它們的增強副本。
多WOZ
data/multiwoz/
目錄中。data/multiwoz/WP
。data/multiwoz/TP
。data/multiwoz/SR
。data/multiwoz/SD
。data/multiwoz/Enhanced
中。data/multiwoz/Real
目錄中。鏡框
data/Frames/
目錄中。data/Frames/WP
。data/Frames/TP
。data/Frames/SR
處。data/Frames/SD
處。data/Frames/Enhanced
。 我們提供了四種基本 NLU 模型,在我們的論文中進行了描述:
這些模型改編自 ConvLab-2。有關更多詳細信息,您可以參考LUAG/nlu/$model/$dataset
目錄下的README.md
例如LAUG/nlu/gpt/multiwoz/README.md
。
如果您在研究中使用 LAUG,請引用:
@inproceedings{liu2021robustness,
title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
year={2021},
booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}
阿帕契許可證 2.0