Download LAUG - Download do código-fonte LAUG

LAUG

Outro código-fonte

1.0.0

Baixar

RIR

LAUG é um kit de ferramentas de código aberto para AUGmentação de compreensão de linguagem. É um método automático para aproximar as perturbações naturais dos dados existentes. Dados aumentados poderiam ser usados para realizar testes de robustez de caixa preta ou melhorar o treinamento. [papel]

RIR
- Instalação
- Métodos de aumento
- Conjuntos de dados suportados
- Modelos NLU
- Citando
- Licença

Instalação

Requer python 3.6.

Clone este repositório:

git clone https://github.com/thu-coai/LAUG.git

Instale via pip:

 cd LAUG
pip install -e .

Baixe dados e modelos:

Os dados utilizados em nosso artigo e os parâmetros do modelo pré-treinados por nós estão disponíveis no Link. Faça o download e coloque-os no diretório correspondente. Para parâmetros de modelo lançados por outros, consulte README.md nos diretórios de cada método de aumento, como LAUG/aug/Speech_Recognition/README.md .

Métodos de aumento

Aqui estão os 4 métodos de aumento descritos em nosso artigo. Eles são colocados no diretório LAUG/aug .

Word Perturbation (WP), em Word_Perturbation/ dir.
Paráfrase de texto (TP), em Text_Paraphrasing/ dir.
Reconhecimento de Fala (SR), em Speech_Recognition/ dir.
Disfluência de Fala (SD), em Speech_Disfluency/ dir.

Consulte nosso artigo e README.md em cada método de aumento para obter informações detalhadas.

Consulte demo.py para o uso desses métodos de aumento.

python demo.py

Observando que nossos métodos de aumento contêm vários modelos neurais, os parâmetros pré-treinados precisam ser baixados antes do uso. Parâmetros pré-treinados por nós estão disponíveis no Link. Para parâmetros divulgados por terceiros, siga as instruções de cada método.

Conjuntos de dados suportados

Os dados utilizados em nosso artigo estão disponíveis em Link. Faça o download e coloque-o em data/ dir.

Nossos dados contêm 2 conjuntos de dados: MultiWOZ e Frames, junto com suas cópias aumentadas.

MultiWOZ
- Dados originais
  - Usamos MultiWOZ 2.3 como dados originais. Colocamos em data/multiwoz/ dir.
  - Tamanho do trem/val/teste: caixas de diálogo 8434/999/1000.
  - LICENÇA:
- Dados aumentados
  - Temos 4 conjuntos de testes aumentados:
    - WP (Word Perturbation), tamanho: 1000, colocado em data/multiwoz/WP .
    - TP (Paráfrase de Texto), tamanho: 1000, colocado em data/multiwoz/TP .
    - SR (Perturbação da Fala), tamanho: 1000, colocado em data/multiwoz/SR .
    - SD (Disfluência de Fala), tamanho: 1000, colocado em data/multiwoz/SD .
  - Temos 1 conjunto de treinamento aumentado:
    - Tamanho: 16868, Contém: 50%Original+(12,5%WP+12,5%TP+12,5%SR+12,5%SD), colocado em data/multiwoz/Enhanced .
- Dados reais de avaliação do usuário:
  - Coletamos 240 declarações de usuários reais para nossa avaliação de usuários reais.
  - Colocamos em data/multiwoz/Real dir.
  - Consulte nosso artigo para obter informações detalhadas sobre as estatísticas e a coleta de dados reais.
Molduras
- Dados originais
  - Processamos Frames no mesmo formato do MultiWOZ e os colocamos em data/Frames/ dir.
  - Tamanho do trem/val/teste: caixas de diálogo 1095/137/137.
  - LICENÇA:
- Dados aumentados
  - Temos 4 conjuntos de testes aumentados:
    - WP (Word Perturbation), tamanho: 137, colocado em data/Frames/WP .
    - TP (Text Paraphrasing), tamanho: 137, colocado em data/Frames/TP .
    - SR (Perturbação da Fala), tamanho: 137, colocado em data/Frames/SR .
    - SD (Disfluência de Fala), tamanho: 137, colocado em data/Frames/SD .
  - Temos 1 conjunto de treinamento aumentado:
    - Tamanho: 2190, Contém: 50%Original+(12,5%WP+12,5%TP+12,5%SR+12,5%SD), colocado em data/Frames/Enhanced .

Modelos NLU

Fornecemos quatro modelos básicos de NLU que são descritos em nosso artigo:

MILU
BERTO
CopyNet
GPT-2

Esses modelos são adaptados do ConvLab-2. Para obter mais detalhes, você pode consultar README.md no diretório LUAG/nlu/$model/$dataset como LAUG/nlu/gpt/multiwoz/README.md .

Citando

Se você usa LAUG em sua pesquisa, cite:

 @inproceedings{liu2021robustness,
    title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
    author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
    year={2021},
    booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}