LAUG
1.0.0
LAUG是一个用于语言理解 AUGmentation 的开源工具包。它是一种对现有数据进行近似自然扰动的自动方法。增强数据可用于进行黑盒稳健性测试或增强训练。 [纸]
需要 python 3.6。
克隆此存储库:
git clone https://github.com/thu-coai/LAUG.git
通过 pip 安装:
cd LAUG
pip install -e .
下载数据和模型:
我们论文中使用的数据和我们预先训练的模型参数可以在链接中找到。请下载并放置到相应的目录中。其他人发布的模型参数请参考各增强方法目录下的README.md
,如LAUG/aug/Speech_Recognition/README.md
。
以下是我们论文中描述的 4 种增强方法。它们位于LAUG/aug
目录下。
Word_Perturbation/
目录。Text_Paraphrasing/
目录。Speech_Recognition/
目录。Speech_Disfluency/
目录。请参阅我们的论文和每种增强方法中的 README.md 以获取详细信息。
有关这些增强方法的用法,请参阅demo.py
python demo.py
请注意,我们的增强方法包含多个神经模型,因此需要在使用前下载预训练的参数。我们预先训练的参数可以在 Link 上找到。对于其他人发布的参数,请按照各方法的说明进行操作。
我们论文中使用的数据可在链接中找到。请下载它并将其放置在data/
目录中。
我们的数据包含 2 个数据集:MultiWOZ 和 Frames,以及它们的增强副本。
多WOZ
data/multiwoz/
目录中。data/multiwoz/WP
。data/multiwoz/TP
。data/multiwoz/SR
。data/multiwoz/SD
。data/multiwoz/Enhanced
中。data/multiwoz/Real
目录中。镜框
data/Frames/
目录中。data/Frames/WP
。data/Frames/TP
。data/Frames/SR
处。data/Frames/SD
处。data/Frames/Enhanced
。 我们提供了四种基本 NLU 模型,在我们的论文中进行了描述:
这些模型改编自 ConvLab-2。有关更多详细信息,您可以参考LUAG/nlu/$model/$dataset
目录下的README.md
例如LAUG/nlu/gpt/multiwoz/README.md
。
如果您在研究中使用 LAUG,请引用:
@inproceedings{liu2021robustness,
title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
year={2021},
booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}
阿帕奇许可证 2.0