LAUG é um kit de ferramentas de código aberto para AUGmentação de compreensão de linguagem. É um método automático para aproximar as perturbações naturais dos dados existentes. Dados aumentados poderiam ser usados para realizar testes de robustez de caixa preta ou melhorar o treinamento. [papel]
Requer python 3.6.
Clone este repositório:
git clone https://github.com/thu-coai/LAUG.git
Instale via pip:
cd LAUG
pip install -e .
Baixe dados e modelos:
Os dados utilizados em nosso artigo e os parâmetros do modelo pré-treinados por nós estão disponíveis no Link. Faça o download e coloque-os no diretório correspondente. Para parâmetros de modelo lançados por outros, consulte README.md
nos diretórios de cada método de aumento, como LAUG/aug/Speech_Recognition/README.md
.
Aqui estão os 4 métodos de aumento descritos em nosso artigo. Eles são colocados no diretório LAUG/aug
.
Word_Perturbation/
dir.Text_Paraphrasing/
dir.Speech_Recognition/
dir.Speech_Disfluency/
dir.Consulte nosso artigo e README.md em cada método de aumento para obter informações detalhadas.
Consulte demo.py
para o uso desses métodos de aumento.
python demo.py
Observando que nossos métodos de aumento contêm vários modelos neurais, os parâmetros pré-treinados precisam ser baixados antes do uso. Parâmetros pré-treinados por nós estão disponíveis no Link. Para parâmetros divulgados por terceiros, siga as instruções de cada método.
Os dados utilizados em nosso artigo estão disponíveis em Link. Faça o download e coloque-o em data/
dir.
Nossos dados contêm 2 conjuntos de dados: MultiWOZ e Frames, junto com suas cópias aumentadas.
MultiWOZ
data/multiwoz/
dir.data/multiwoz/WP
.data/multiwoz/TP
.data/multiwoz/SR
.data/multiwoz/SD
.data/multiwoz/Enhanced
.data/multiwoz/Real
dir.Molduras
data/Frames/
dir.data/Frames/WP
.data/Frames/TP
.data/Frames/SR
.data/Frames/SD
.data/Frames/Enhanced
. Fornecemos quatro modelos básicos de NLU que são descritos em nosso artigo:
Esses modelos são adaptados do ConvLab-2. Para obter mais detalhes, você pode consultar README.md
no diretório LUAG/nlu/$model/$dataset
como LAUG/nlu/gpt/multiwoz/README.md
.
Se você usa LAUG em sua pesquisa, cite:
@inproceedings{liu2021robustness,
title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
year={2021},
booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}
Licença Apache 2.0