Descargar LAUG - Descarga del código fuente LAUG

LAUG

Otro código fuente

1.0.0

Descargar

RÍE

LAUG es un conjunto de herramientas de código abierto para la comprensión del lenguaje AUGmentation. Es un método automático para aproximar las perturbaciones naturales a los datos existentes. Los datos aumentados podrían usarse para realizar pruebas de robustez de caja negra o mejorar la capacitación. [papel]

RÍE
- Instalación
- Métodos de aumento
- Conjuntos de datos compatibles
- Modelos NLU
- Citando
- Licencia

Instalación

Requiere Python 3.6.

Clona este repositorio:

git clone https://github.com/thu-coai/LAUG.git

Instalar mediante pip:

 cd LAUG
pip install -e .

Descargar datos y modelos:

Los datos utilizados en nuestro artículo y los parámetros del modelo previamente entrenados por nosotros están disponibles en Link. Descárguelos y colóquelos en el directorio correspondiente. Para conocer los parámetros del modelo publicados por otros, consulte README.md en los directorios de cada método de aumento, como LAUG/aug/Speech_Recognition/README.md .

Métodos de aumento

Aquí están los 4 métodos de aumento descritos en nuestro artículo. Se colocan en LAUG/aug dir.

Perturbación de palabras (WP), en Word_Perturbation/ dir.
Parafraseo de texto (TP), en Text_Paraphrasing/ dir.
Reconocimiento de voz (SR), en Speech_Recognition/ dir.
Disfluencia del habla (SD), en Speech_Disfluency/ dir.

Consulte nuestro documento y README.md en cada método de aumento para obtener información detallada.

Consulte demo.py para conocer el uso de estos métodos de aumento.

python demo.py

Teniendo en cuenta que nuestros métodos de aumento contienen varios modelos neuronales, los parámetros previamente entrenados deben descargarse antes de su uso. Los parámetros previamente entrenados por nosotros están disponibles en Link. Para los parámetros publicados por otros, siga las instrucciones de cada método.

Conjuntos de datos compatibles

Los datos utilizados en nuestro artículo están disponibles en Link. Descárguelo y colóquelo data/ dir.

Nuestros datos contienen 2 conjuntos de datos: MultiWOZ y Frames, junto con sus copias aumentadas.

MultiWOZ
- datos originales
  - Utilizamos MultiWOZ 2.3 como datos originales. Lo ubicamos en data/multiwoz/ dir.
  - Tamaño de tren/val/prueba: 8434/999/1000 diálogos.
  - LICENCIA:
- Datos aumentados
  - Tenemos 4 conjuntos de pruebas aumentados:
    - WP (Word Perturbation), tamaño: 1000, ubicado en data/multiwoz/WP .
    - TP (Parafraseo de texto), tamaño: 1000, ubicado en data/multiwoz/TP .
    - SR (Perturbación del habla), tamaño: 1000, ubicado en data/multiwoz/SR .
    - SD (Disfluencia del habla), tamaño: 1000, ubicado en data/multiwoz/SD .
  - Disponemos de 1 set de entrenamiento aumentado:
    - Tamaño: 16868, Contiene: 50%Original+(12.5%WP+12.5%TP+12.5%SR+12.5%SD), colocado en data/multiwoz/Enhanced .
- Datos reales de evaluación de usuarios:
  - Recopilamos 240 expresiones de usuarios reales para nuestra evaluación de usuarios reales.
  - Lo ubicamos en data/multiwoz/Real dir.
  - Consulte nuestro documento para obtener información detallada sobre las estadísticas y la recopilación de datos reales.
Marcos
- datos originales
  - Procesamos Frames en el mismo formato que MultiWOZ y lo colocamos en data/Frames/ dir.
  - Tamaño de tren/val/prueba: 1095/137/137 diálogos.
  - LICENCIA:
- Datos aumentados
  - Tenemos 4 conjuntos de pruebas aumentados:
    - WP (Word Perturbation), tamaño: 137, ubicado en data/Frames/WP .
    - TP (Parafraseo de texto), tamaño: 137, ubicado en data/Frames/TP .
    - SR (Perturbación del habla), tamaño: 137, ubicado en data/Frames/SR .
    - SD (disfluencia del habla), tamaño: 137, ubicado en data/Frames/SD .
  - Disponemos de 1 set de entrenamiento aumentado:
    - Tamaño: 2190, Contiene: 50%Original+(12.5%WP+12.5%TP+12.5%SR+12.5%SD), colocado en data/Frames/Enhanced .

Modelos NLU

Proporcionamos cuatro modelos NLU básicos que se describen en nuestro artículo:

MILÚ
BERT
CopyNet
GPT-2

Estos modelos están adaptados de ConvLab-2. Para obtener más detalles, puede consultar README.md en el directorio LUAG/nlu/$model/$dataset , como LAUG/nlu/gpt/multiwoz/README.md .

Citando

Si utiliza LAUG en su investigación, cite:

 @inproceedings{liu2021robustness,
    title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
    author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
    year={2021},
    booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}