LAUG es un conjunto de herramientas de código abierto para la comprensión del lenguaje AUGmentation. Es un método automático para aproximar las perturbaciones naturales a los datos existentes. Los datos aumentados podrían usarse para realizar pruebas de robustez de caja negra o mejorar la capacitación. [papel]
Requiere Python 3.6.
Clona este repositorio:
git clone https://github.com/thu-coai/LAUG.git
Instalar mediante pip:
cd LAUG
pip install -e .
Descargar datos y modelos:
Los datos utilizados en nuestro artículo y los parámetros del modelo previamente entrenados por nosotros están disponibles en Link. Descárguelos y colóquelos en el directorio correspondiente. Para conocer los parámetros del modelo publicados por otros, consulte README.md
en los directorios de cada método de aumento, como LAUG/aug/Speech_Recognition/README.md
.
Aquí están los 4 métodos de aumento descritos en nuestro artículo. Se colocan en LAUG/aug
dir.
Word_Perturbation/
dir.Text_Paraphrasing/
dir.Speech_Recognition/
dir.Speech_Disfluency/
dir.Consulte nuestro documento y README.md en cada método de aumento para obtener información detallada.
Consulte demo.py
para conocer el uso de estos métodos de aumento.
python demo.py
Teniendo en cuenta que nuestros métodos de aumento contienen varios modelos neuronales, los parámetros previamente entrenados deben descargarse antes de su uso. Los parámetros previamente entrenados por nosotros están disponibles en Link. Para los parámetros publicados por otros, siga las instrucciones de cada método.
Los datos utilizados en nuestro artículo están disponibles en Link. Descárguelo y colóquelo data/
dir.
Nuestros datos contienen 2 conjuntos de datos: MultiWOZ y Frames, junto con sus copias aumentadas.
MultiWOZ
data/multiwoz/
dir.data/multiwoz/WP
.data/multiwoz/TP
.data/multiwoz/SR
.data/multiwoz/SD
.data/multiwoz/Enhanced
.data/multiwoz/Real
dir.Marcos
data/Frames/
dir.data/Frames/WP
.data/Frames/TP
.data/Frames/SR
.data/Frames/SD
.data/Frames/Enhanced
. Proporcionamos cuatro modelos NLU básicos que se describen en nuestro artículo:
Estos modelos están adaptados de ConvLab-2. Para obtener más detalles, puede consultar README.md
en el directorio LUAG/nlu/$model/$dataset
, como LAUG/nlu/gpt/multiwoz/README.md
.
Si utiliza LAUG en su investigación, cite:
@inproceedings{liu2021robustness,
title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
year={2021},
booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}
Licencia Apache 2.0