LAUG下载 - LAUG源码下载

LAUG

其他源码

1.0.0

下载

笑

LAUG是一个用于语言理解 AUGmentation 的开源工具包。它是一种对现有数据进行近似自然扰动的自动方法。增强数据可用于进行黑盒稳健性测试或增强训练。 [纸]

笑
- 安装
- 增强方法
- 支持的数据集
- 自然逻辑单元模型
- 引用
- 执照

安装

需要 python 3.6。

克隆此存储库：

git clone https://github.com/thu-coai/LAUG.git

通过 pip 安装：

 cd LAUG
pip install -e .

下载数据和模型：

我们论文中使用的数据和我们预先训练的模型参数可以在链接中找到。请下载并放置到相应的目录中。其他人发布的模型参数请参考各增强方法目录下的README.md ，如LAUG/aug/Speech_Recognition/README.md 。

增强方法

以下是我们论文中描述的 4 种增强方法。它们位于LAUG/aug目录下。

Word Perturbation (WP)，位于Word_Perturbation/目录。
文本释义 (TP)，位于Text_Paraphrasing/目录。
语音识别 (SR)，位于Speech_Recognition/目录。
言语不流畅 (SD)，位于Speech_Disfluency/目录。

请参阅我们的论文和每种增强方法中的 README.md 以获取详细信息。

有关这些增强方法的用法，请参阅demo.py

python demo.py

请注意，我们的增强方法包含多个神经模型，因此需要在使用前下载预训练的参数。我们预先训练的参数可以在 Link 上找到。对于其他人发布的参数，请按照各方法的说明进行操作。

支持的数据集

我们论文中使用的数据可在链接中找到。请下载它并将其放置在data/目录中。

我们的数据包含 2 个数据集：MultiWOZ 和 Frames，以及它们的增强副本。

多WOZ
- 原始数据
  - 我们使用MultiWOZ 2.3作为原始数据。我们将其放置在data/multiwoz/目录中。
  - 训练/验证/测试大小：8434/999/1000 个对话框。
  - 执照：
- 增强数据
  - 我们有 4 个增强测试集：
    - WP（Word Perturbation），大小：1000，放置在data/multiwoz/WP 。
    - TP（文本释义），大小：1000，放置在data/multiwoz/TP 。
    - SR（语音扰动），大小：1000，放置在data/multiwoz/SR 。
    - SD（言语不流畅），大小：1000，放置在data/multiwoz/SD 。
  - 我们有 1 个增强训练集：
    - 尺寸：16868，包含：50%Original+(12.5%WP+12.5%TP+12.5%SR+12.5%SD)，放置在data/multiwoz/Enhanced中。
- 真实用户评价数据：
  - 我们收集了 240 条来自真实用户的话语来进行真实用户评估。
  - 我们将其放置在data/multiwoz/Real目录中。
  - 有关真实数据的统计和收集的详细信息，请参阅我们的论文。
镜框
- 原始数据
  - 我们将帧处理为与 MultiWOZ 相同的格式，并将其放置在data/Frames/目录中。
  - 训练/验证/测试大小：1095/137/137 个对话框。
  - 执照：
- 增强数据
  - 我们有 4 个增强测试集：
    - WP（Word Perturbation），大小：137，放置在data/Frames/WP 。
    - TP（文本释义），大小：137，放置在data/Frames/TP 。
    - SR（语音扰动），大小：137，放置在data/Frames/SR处。
    - SD（言语不流畅），大小：137，放置在data/Frames/SD处。
  - 我们有 1 个增强训练集：
    - 尺寸：2190，包含：50%原始+(12.5%WP+12.5%TP+12.5%SR+12.5%SD)，放置在data/Frames/Enhanced 。

自然逻辑单元模型

我们提供了四种基本 NLU 模型，在我们的论文中进行了描述：

米鲁
伯特
复制网
GPT-2

这些模型改编自 ConvLab-2。有关更多详细信息，您可以参考LUAG/nlu/$model/$dataset目录下的README.md例如LAUG/nlu/gpt/multiwoz/README.md 。

引用

如果您在研究中使用 LAUG，请引用：

 @inproceedings{liu2021robustness,
    title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
    author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
    year={2021},
    booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}