LAUG est une boîte à outils open source pour la compréhension du langage AUGmentation. Il s'agit d'une méthode automatique permettant d'approcher les perturbations naturelles des données existantes. Les données augmentées pourraient être utilisées pour effectuer des tests de robustesse en boîte noire ou pour améliorer la formation. [papier]
Nécessite Python 3.6.
Clonez ce dépôt :
git clone https://github.com/thu-coai/LAUG.git
Installer via pip :
cd LAUG
pip install -e .
Téléchargez les données et les modèles :
Les données utilisées dans notre article et les paramètres du modèle pré-entraînés par nos soins sont disponibles sur Link. Veuillez les télécharger et les placer dans le répertoire correspondant. Pour les paramètres de modèle publiés par d'autres, veuillez vous référer à README.md
sous les répertoires de chaque méthode d'augmentation telle que LAUG/aug/Speech_Recognition/README.md
.
Voici les 4 méthodes d’augmentation décrites dans notre article. Ils sont placés sous la dir LAUG/aug
.
Word_Perturbation/
dir.Text_Paraphrasing/
dir.Speech_Recognition/
dir.Speech_Disfluency/
dir.Veuillez consulter notre article et README.md dans chaque méthode d'augmentation pour des informations détaillées.
Voir demo.py
pour l'utilisation de ces méthodes d'augmentation.
python demo.py
Sachant que nos méthodes d'augmentation contiennent plusieurs modèles neuronaux, les paramètres pré-entraînés doivent être téléchargés avant utilisation. Les paramètres pré-entraînés par nos soins sont disponibles sur Link. Pour les paramètres publiés par d’autres, veuillez suivre les instructions de chaque méthode.
Les données utilisées dans notre article sont disponibles sur Link . Veuillez le télécharger et le placer data/
dir.
Nos données contiennent 2 ensembles de données : MultiWOZ et Frames, ainsi que leurs copies augmentées.
MultiWOZ
data/multiwoz/
dir.data/multiwoz/WP
.data/multiwoz/TP
.data/multiwoz/SR
.data/multiwoz/SD
.data/multiwoz/Enhanced
.data/multiwoz/Real
.Cadres
data/Frames/
dir.data/Frames/WP
.data/Frames/TP
.data/Frames/SR
.data/Frames/SD
.data/Frames/Enhanced
. Nous proposons quatre modèles NLU de base qui sont décrits dans notre article :
Ces modèles sont adaptés de ConvLab-2. Pour plus de détails, vous pouvez vous référer à README.md
sous le répertoire LUAG/nlu/$model/$dataset
tel que LAUG/nlu/gpt/multiwoz/README.md
.
Si vous utilisez LAUG dans votre recherche, veuillez citer :
@inproceedings{liu2021robustness,
title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
year={2021},
booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}
Licence Apache 2.0