LAUGダウンロード - LAUGソースコードのダウンロード

LAUG

その他のソースコード

1.0.0

ダウンロード

ラウグ

LAUG は、言語理解 AUGmentation のためのオープンソースツールキットです。これは、自然の摂動を既存のデータに近似する自動方法です。拡張データは、ブラックボックスの堅牢性テストやトレーニングの強化に使用できます。 [紙]

ラウグ
- インストール
- 拡張方法
- サポートされているデータセット
- NLUモデル
- 引用
- ライセンス

インストール

Python 3.6が必要です。

このリポジトリのクローンを作成します。

git clone https://github.com/thu-coai/LAUG.git

pip 経由でインストールします。

 cd LAUG
pip install -e .

データとモデルをダウンロードします。

論文で使用したデータと事前トレーニングされたモデルパラメーターは、リンクから入手できます。ダウンロードして対応するディレクトリに配置してください。他社が公開しているモデルパラメータについては、 LAUG/aug/Speech_Recognition/README.mdなどの各拡張手法のディレクトリ配下にあるREADME.mdを参照してください。

拡張方法

私たちの論文で説明されている 4 つの拡張方法を次に示します。これらはLAUG/augディレクトリの下に配置されます。

Word Perturbation (WP)、 Word_Perturbation/ dir にあります。
Text Paraphrasing (TP)、 Text_Paraphrasing/ dir にあります。
音声認識 (SR)、 Speech_Recognition/ dir にあります。
Speech Disfluency (SD)、 Speech_Disfluency/ dir にあります。

詳細については、各拡張方法の論文および README.md を参照してください。

これらの拡張メソッドの使用法については、 demo.py参照してください。

python demo.py

私たちの拡張メソッドにはいくつかのニューラルモデルが含まれているため、使用前に事前トレーニングされたパラメーターをダウンロードする必要があることに注意してください。弊社が事前にトレーニングしたパラメータは、リンクから入手できます。他社が公開したパラメータについては、それぞれの方法の指示に従ってください。

サポートされているデータセット

私たちの論文で使用されているデータは、リンクから入手できます。ダウンロードしてdata/ディレクトリに配置してください。

私たちのデータには、MultiWOZ と Frames の 2 つのデータセットと、それらの拡張コピーが含まれています。

マルチウォズ
- オリジナルデータ
  - オリジナルデータとしてMultiWOZ 2.3を使用しています。これをdata/multiwoz/ dir に配置します。
  - トレーニング/検証/テストサイズ: 8434/999/1000 ダイアログ。
  - ライセンス：
- 拡張データ
  - 4 つの拡張テストセットがあります。
    - WP (Word Perturbation)、サイズ: 1000、 data/multiwoz/WPに配置されます。
    - TP (Text Paraphrasing)、サイズ: 1000、 data/multiwoz/TPに配置されます。
    - SR (音声摂動)、サイズ: 1000、 data/multiwoz/SRに配置されます。
    - SD (Speech Disfluency)、サイズ: 1000、 data/multiwoz/SDに配置されています。
  - 強化されたトレーニングセットが 1 つあります。
    - サイズ: 16868 、内容: 50%Original+(12.5%WP+12.5%TP+12.5%SR+12.5%SD)、 data/multiwoz/Enhancedに配置されます。
- 実際のユーザー評価データ：
  - 実際のユーザー評価として、実際のユーザーから 240 件の発話を収集しました。
  - これをdata/multiwoz/Realディレクトリに配置します。
  - 統計と実際のデータの収集に関する詳細については、論文を参照してください。
フレーム
- オリジナルデータ
  - フレームを MultiWOZ と同じ形式に処理し、 data/Frames/ dir に配置します。
  - トレーニング/検証/テストサイズ: 1095/137/137 ダイアログ。
  - ライセンス：
- 拡張データ
  - 4 つの拡張テストセットがあります。
    - WP (Word Perturbation)、サイズ: 137、 data/Frames/WPに配置されます。
    - TP (Text Paraphrasing)、サイズ: 137、 data/Frames/TPに配置されます。
    - SR (音声摂動)、サイズ: 137、 data/Frames/SRに配置されます。
    - SD (Speech Disfluency)、サイズ: 137、 data/Frames/SDに配置されます。
  - 強化されたトレーニングセットが 1 つあります。
    - サイズ: 2190、内容: 50%Original+(12.5%WP+12.5%TP+12.5%SR+12.5%SD)、 data/Frames/Enhancedに配置されます。

NLUモデル

論文で説明されている 4 つの基本 NLU モデルが提供されています。

ミル
バート
コピーネット
GPT-2

これらのモデルは ConvLab-2 から適応されています。詳細については、 LUAG/nlu/$model/$datasetディレクトリにあるREADME.md ( LAUG/nlu/gpt/multiwoz/README.mdなど) を参照してください。

引用

研究で LAUG を使用する場合は、以下を引用してください。

 @inproceedings{liu2021robustness,
    title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
    author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
    year={2021},
    booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}