LAUG ist ein Open-Source-Toolkit für die AUGmentierung des Sprachverständnisses. Es handelt sich um eine automatische Methode zur Annäherung der natürlichen Störungen an vorhandene Daten. Erweiterte Daten könnten verwendet werden, um Black-Box-Robustheitstests durchzuführen oder das Training zu verbessern. [Papier]
Erfordert Python 3.6.
Klonen Sie dieses Repository:
git clone https://github.com/thu-coai/LAUG.git
Per Pip installieren:
cd LAUG
pip install -e .
Daten und Modelle herunterladen:
Die in unserem Papier verwendeten Daten und von uns vorab trainierten Modellparameter sind unter Link verfügbar. Bitte laden Sie sie herunter und platzieren Sie sie im entsprechenden Verzeichnis. Informationen zu Modellparametern, die von anderen veröffentlicht wurden, finden Sie in README.md
unter den Verzeichnissen der einzelnen Erweiterungsmethoden, z. B. LAUG/aug/Speech_Recognition/README.md
.
Hier sind die 4 Augmentationsmethoden, die in unserem Artikel beschrieben werden. Sie werden unter LAUG/aug
dir platziert.
Word_Perturbation/
dir.Text_Paraphrasing/
dir.Speech_Recognition/
dir.Speech_Disfluency/
dir.Ausführliche Informationen finden Sie in unserem Dokument und in der README.md-Datei zu jeder Erweiterungsmethode.
Informationen zur Verwendung dieser Erweiterungsmethoden finden Sie in demo.py
python demo.py
Da unsere Erweiterungsmethoden mehrere neuronale Modelle enthalten, müssen vorab trainierte Parameter vor der Verwendung heruntergeladen werden. Von uns vortrainierte Parameter finden Sie unter Link. Für Parameter, die von anderen freigegeben wurden, befolgen Sie bitte die Anweisungen der jeweiligen Methode.
Die in unserem Artikel verwendeten Daten sind unter Link verfügbar. Bitte laden Sie es herunter und platzieren Sie es data/
Verzeichnis.
Unsere Daten enthalten zwei Datensätze: MultiWOZ und Frames sowie deren erweiterte Kopien.
MultiWOZ
data/multiwoz/
dir.data/multiwoz/WP
.data/multiwoz/TP
.data/multiwoz/SR
.data/multiwoz/SD
.data/multiwoz/Enhanced
.data/multiwoz/Real
.Rahmen
data/Frames/
dir.data/Frames/WP
.data/Frames/TP
.data/Frames/SR
.data/Frames/SD
.data/Frames/Enhanced
. Wir bieten vier grundlegende NLU-Modelle an, die in unserem Artikel beschrieben werden:
Diese Modelle sind von ConvLab-2 adaptiert. Weitere Einzelheiten finden Sie in README.md
im Verzeichnis LUAG/nlu/$model/$dataset
z. B. LAUG/nlu/gpt/multiwoz/README.md
.
Wenn Sie LAUG in Ihrer Forschung verwenden, geben Sie bitte Folgendes an:
@inproceedings{liu2021robustness,
title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
year={2021},
booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}
Apache-Lizenz 2.0