LAUG は、言語理解 AUGmentation のためのオープンソース ツールキットです。これは、自然の摂動を既存のデータに近似する自動方法です。拡張データは、ブラックボックスの堅牢性テストやトレーニングの強化に使用できます。 [紙]
Python 3.6が必要です。
このリポジトリのクローンを作成します。
git clone https://github.com/thu-coai/LAUG.git
pip 経由でインストールします。
cd LAUG
pip install -e .
データとモデルをダウンロードします。
論文で使用したデータと事前トレーニングされたモデル パラメーターは、リンクから入手できます。ダウンロードして対応するディレクトリに配置してください。他社が公開しているモデルパラメータについては、 LAUG/aug/Speech_Recognition/README.md
などの各拡張手法のディレクトリ配下にあるREADME.md
を参照してください。
私たちの論文で説明されている 4 つの拡張方法を次に示します。これらはLAUG/aug
ディレクトリの下に配置されます。
Word_Perturbation/
dir にあります。Text_Paraphrasing/
dir にあります。Speech_Recognition/
dir にあります。Speech_Disfluency/
dir にあります。詳細については、各拡張方法の論文および README.md を参照してください。
これらの拡張メソッドの使用法については、 demo.py
参照してください。
python demo.py
私たちの拡張メソッドにはいくつかのニューラル モデルが含まれているため、使用前に事前トレーニングされたパラメーターをダウンロードする必要があることに注意してください。弊社が事前にトレーニングしたパラメータは、リンクから入手できます。他社が公開したパラメータについては、それぞれの方法の指示に従ってください。
私たちの論文で使用されているデータは、リンクから入手できます。ダウンロードしてdata/
ディレクトリに配置してください。
私たちのデータには、MultiWOZ と Frames の 2 つのデータセットと、それらの拡張コピーが含まれています。
マルチウォズ
data/multiwoz/
dir に配置します。data/multiwoz/WP
に配置されます。data/multiwoz/TP
に配置されます。data/multiwoz/SR
に配置されます。data/multiwoz/SD
に配置されています。data/multiwoz/Enhanced
に配置されます。data/multiwoz/Real
ディレクトリに配置します。フレーム
data/Frames/
dir に配置します。data/Frames/WP
に配置されます。data/Frames/TP
に配置されます。data/Frames/SR
に配置されます。data/Frames/SD
に配置されます。data/Frames/Enhanced
に配置されます。 論文で説明されている 4 つの基本 NLU モデルが提供されています。
これらのモデルは ConvLab-2 から適応されています。詳細については、 LUAG/nlu/$model/$dataset
ディレクトリにあるREADME.md
( LAUG/nlu/gpt/multiwoz/README.md
など) を参照してください。
研究で LAUG を使用する場合は、以下を引用してください。
@inproceedings{liu2021robustness,
title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
year={2021},
booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}
Apache ライセンス 2.0