Téléchargement LAUG - Téléchargement du code source LAUG

LAUG

Autre code source

1.0.0

Télécharger

RIT

LAUG est une boîte à outils open source pour la compréhension du langage AUGmentation. Il s'agit d'une méthode automatique permettant d'approcher les perturbations naturelles des données existantes. Les données augmentées pourraient être utilisées pour effectuer des tests de robustesse en boîte noire ou pour améliorer la formation. [papier]

RIT
- Installation
- Méthodes d'augmentation
- Ensembles de données pris en charge
- Modèles NLU
- Citer
- Licence

Installation

Nécessite Python 3.6.

Clonez ce dépôt :

git clone https://github.com/thu-coai/LAUG.git

Installer via pip :

 cd LAUG
pip install -e .

Téléchargez les données et les modèles :

Les données utilisées dans notre article et les paramètres du modèle pré-entraînés par nos soins sont disponibles sur Link. Veuillez les télécharger et les placer dans le répertoire correspondant. Pour les paramètres de modèle publiés par d'autres, veuillez vous référer à README.md sous les répertoires de chaque méthode d'augmentation telle que LAUG/aug/Speech_Recognition/README.md .

Méthodes d'augmentation

Voici les 4 méthodes d’augmentation décrites dans notre article. Ils sont placés sous la dir LAUG/aug .

Word Perturbation (WP), à Word_Perturbation/ dir.
Paraphrase de texte (TP), dans Text_Paraphrasing/ dir.
Reconnaissance vocale (SR), dans Speech_Recognition/ dir.
Disfluence de la parole (SD), à Speech_Disfluency/ dir.

Veuillez consulter notre article et README.md dans chaque méthode d'augmentation pour des informations détaillées.

Voir demo.py pour l'utilisation de ces méthodes d'augmentation.

python demo.py

Sachant que nos méthodes d'augmentation contiennent plusieurs modèles neuronaux, les paramètres pré-entraînés doivent être téléchargés avant utilisation. Les paramètres pré-entraînés par nos soins sont disponibles sur Link. Pour les paramètres publiés par d’autres, veuillez suivre les instructions de chaque méthode.

Ensembles de données pris en charge

Les données utilisées dans notre article sont disponibles sur Link . Veuillez le télécharger et le placer data/ dir.

Nos données contiennent 2 ensembles de données : MultiWOZ et Frames, ainsi que leurs copies augmentées.

MultiWOZ
- Données originales
  - Nous utilisons MultiWOZ 2.3 comme données originales. Nous le plaçons dans data/multiwoz/ dir.
  - Taille de train/val/test : 8434/999/1000 boîtes de dialogue.
  - LICENCE:
- Données augmentées
  - Nous disposons de 4 ensembles de tests augmentés :
    - WP (Word Perturbation), taille : 1000, placé dans data/multiwoz/WP .
    - TP (Text Paraphrasing), taille : 1000, placé dans data/multiwoz/TP .
    - SR (Speech Perturbation), taille : 1000, placé dans data/multiwoz/SR .
    - SD (Speech Disfluency), taille : 1000, placé dans data/multiwoz/SD .
  - Nous avons 1 set de formation augmenté :
    - Taille : 16868 , Contient : 50%Original+(12.5%WP+12.5%TP+12.5%SR+12.5%SD) , placé dans data/multiwoz/Enhanced .
- Données d'évaluation des utilisateurs réels :
  - Nous avons collecté 240 déclarations d'utilisateurs réels pour notre évaluation d'utilisateur réel.
  - Nous le plaçons dans le répertoire data/multiwoz/Real .
  - Veuillez consulter notre article pour des informations détaillées sur les statistiques et la collecte de données réelles.
Cadres
- Données originales
  - Nous traitons les Frames dans le même format que MultiWOZ et les plaçons dans data/Frames/ dir.
  - Taille du train/val/test : 1095/137/137 boîtes de dialogue.
  - LICENCE:
- Données augmentées
  - Nous disposons de 4 ensembles de tests augmentés :
    - WP (Word Perturbation), taille : 137, placé dans data/Frames/WP .
    - TP (Text Paraphrasing), taille : 137, placé dans data/Frames/TP .
    - SR (Speech Perturbation), taille : 137, placé dans data/Frames/SR .
    - SD (Speech Disfluency), taille : 137, placé dans data/Frames/SD .
  - Nous avons 1 set de formation augmenté :
    - Taille : 2190, contient : 50%Original+(12.5%WP+12.5%TP+12.5%SR+12.5%SD), placé dans data/Frames/Enhanced .

Modèles NLU

Nous proposons quatre modèles NLU de base qui sont décrits dans notre article :

MILU
BERTE
CopierNet
GPT-2

Ces modèles sont adaptés de ConvLab-2. Pour plus de détails, vous pouvez vous référer à README.md sous le répertoire LUAG/nlu/$model/$dataset tel que LAUG/nlu/gpt/multiwoz/README.md .

Citer

Si vous utilisez LAUG dans votre recherche, veuillez citer :

 @inproceedings{liu2021robustness,
    title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
    author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
    year={2021},
    booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}