LAUG Download - Download LAUG Quellcodes

LAUG

Anderer Quellcode

1.0.0

Herunterladen

LACHEN

LAUG ist ein Open-Source-Toolkit für die AUGmentierung des Sprachverständnisses. Es handelt sich um eine automatische Methode zur Annäherung der natürlichen Störungen an vorhandene Daten. Erweiterte Daten könnten verwendet werden, um Black-Box-Robustheitstests durchzuführen oder das Training zu verbessern. [Papier]

LACHEN
- Installation
- Augmentationsmethoden
- Unterstützte Datensätze
- NLU-Modelle
- Zitieren
- Lizenz

Installation

Erfordert Python 3.6.

Klonen Sie dieses Repository:

git clone https://github.com/thu-coai/LAUG.git

Per Pip installieren:

 cd LAUG
pip install -e .

Daten und Modelle herunterladen:

Die in unserem Papier verwendeten Daten und von uns vorab trainierten Modellparameter sind unter Link verfügbar. Bitte laden Sie sie herunter und platzieren Sie sie im entsprechenden Verzeichnis. Informationen zu Modellparametern, die von anderen veröffentlicht wurden, finden Sie in README.md unter den Verzeichnissen der einzelnen Erweiterungsmethoden, z. B. LAUG/aug/Speech_Recognition/README.md .

Augmentationsmethoden

Hier sind die 4 Augmentationsmethoden, die in unserem Artikel beschrieben werden. Sie werden unter LAUG/aug dir platziert.

Word Perturbation (WP), unter Word_Perturbation/ dir.
Textparaphrasierung (TP), unter Text_Paraphrasing/ dir.
Spracherkennung (SR), unter Speech_Recognition/ dir.
Sprachstörung (SD), unter Speech_Disfluency/ dir.

Ausführliche Informationen finden Sie in unserem Dokument und in der README.md-Datei zu jeder Erweiterungsmethode.

Informationen zur Verwendung dieser Erweiterungsmethoden finden Sie in demo.py

python demo.py

Da unsere Erweiterungsmethoden mehrere neuronale Modelle enthalten, müssen vorab trainierte Parameter vor der Verwendung heruntergeladen werden. Von uns vortrainierte Parameter finden Sie unter Link. Für Parameter, die von anderen freigegeben wurden, befolgen Sie bitte die Anweisungen der jeweiligen Methode.

Unterstützte Datensätze

Die in unserem Artikel verwendeten Daten sind unter Link verfügbar. Bitte laden Sie es herunter und platzieren Sie es data/ Verzeichnis.

Unsere Daten enthalten zwei Datensätze: MultiWOZ und Frames sowie deren erweiterte Kopien.

MultiWOZ
- Originaldaten
  - Als Originaldaten verwenden wir MultiWOZ 2.3. Wir platzieren es unter data/multiwoz/ dir.
  - Trainings-/Wert-/Testgröße: 8434/999/1000 Dialoge.
  - LIZENZ:
- Erweiterte Daten
  - Wir haben 4 erweiterte Testsätze:
    - WP (Word Perturbation), Größe: 1000, platziert unter data/multiwoz/WP .
    - TP (Text Paraphrasing), Größe: 1000, platziert unter data/multiwoz/TP .
    - SR (Speech Perturbation), Größe: 1000, platziert unter data/multiwoz/SR .
    - SD (Speech Disfluency), Größe: 1000, platziert unter data/multiwoz/SD .
  - Wir haben 1 erweitertes Trainingsset:
    - Größe: 16868, enthält: 50 % Original + (12,5 % WP + 12,5 % TP + 12,5 % SR + 12,5 % SD), platziert unter data/multiwoz/Enhanced .
- Echte Benutzerbewertungsdaten:
  - Für unsere Echtnutzerbewertung haben wir 240 Äußerungen von echten Nutzern gesammelt.
  - Wir platzieren es im Verzeichnis data/multiwoz/Real .
  - Ausführliche Informationen zu den Statistiken und der Erfassung der realen Daten finden Sie in unserem Dokument.
Rahmen
- Originaldaten
  - Wir verarbeiten Frames im gleichen Format wie MultiWOZ und platzieren sie unter data/Frames/ dir.
  - Trainings-/Wert-/Testgröße: 1095/137/137 Dialoge.
  - LIZENZ:
- Erweiterte Daten
  - Wir haben 4 erweiterte Testsätze:
    - WP (Word Perturbation), Größe: 137, platziert unter data/Frames/WP .
    - TP (Text Paraphrasing), Größe: 137, platziert unter data/Frames/TP .
    - SR (Sprachstörung), Größe: 137, platziert unter data/Frames/SR .
    - SD (Speech Disfluency), Größe: 137, platziert unter data/Frames/SD .
  - Wir haben 1 erweitertes Trainingsset:
    - Größe: 2190, enthält: 50 % Original + (12,5 % WP + 12,5 % TP + 12,5 % SR + 12,5 % SD), platziert unter data/Frames/Enhanced .

NLU-Modelle

Wir bieten vier grundlegende NLU-Modelle an, die in unserem Artikel beschrieben werden:

MILU
BERT
CopyNet
GPT-2

Diese Modelle sind von ConvLab-2 adaptiert. Weitere Einzelheiten finden Sie in README.md im Verzeichnis LUAG/nlu/$model/$dataset z. B. LAUG/nlu/gpt/multiwoz/README.md .

Zitieren

Wenn Sie LAUG in Ihrer Forschung verwenden, geben Sie bitte Folgendes an:

 @inproceedings{liu2021robustness,
    title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
    author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
    year={2021},
    booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}