transformers data augmentation Download - transformers data augmentation Quellcode herunterladen

transformers data augmentation

Anderer Quellcode

1.0.0

Herunterladen

Datenerweiterung mithilfe vorab trainierter Transformer-Modelle

Code im Zusammenhang mit dem Artikel „Datenerweiterung mithilfe vorab trainierter Transformatormodelle“.

Der Code enthält die Implementierung der folgenden Datenerweiterungsmethoden

EDA (Basislinie)
Rückübersetzung (Grundlinie)
CBERT (Basislinie)
BERT Prepend (Unser Artikel)
GPT-2 Prepend (Unser Artikel)
BART Prepend (Unser Artikel)

Datensätze

In Papierform verwenden wir drei Datensätze aus den folgenden Quellen

STSA-2: https://github.com/1024er/cbert_aug/tree/crayon/datasets/stsa.binary
TREC: https://github.com/1024er/cbert_aug/tree/crayon/datasets/TREC
SNIPS: https://github.com/MiuLab/SlotGated-SLU/tree/master/data/snips

Versuchsaufbau für Low-Data-Regime

Führen Sie die Datei src/utils/download_and_prepare_datasets.sh aus, um alle Datensätze vorzubereiten.
download_and_prepare_datasets.sh führt die folgenden Schritte aus

Laden Sie Daten von Github herunter
Ersetzen Sie numerische Beschriftungen durch Text für STSA-2- und TREC-Datensätze
Erstellt für einen bestimmten Datensatz 15 zufällige Aufteilungen von Trainings- und Entwicklungsdaten.

Abhängigkeiten

Um diesen Code auszuführen, benötigen Sie die folgenden Abhängigkeiten

Pytorch 1.5
fairseq 0.9
Transformatoren 2.9

Wie man läuft

Um ein Datenerweiterungsexperiment für einen bestimmten Datensatz auszuführen, führen Sie das Bash-Skript im scripts aus. Um beispielsweise eine Datenerweiterung für snips Datensatz auszuführen,

Führen Sie scripts/bart_snips_lower.sh für das BART-Experiment aus
Führen Sie scripts/bert_snips_lower.sh für die restlichen Methoden zur Datenerweiterung aus

Wie man zitiert

 @inproceedings{kumar-etal-2020-data,
    title = "Data Augmentation using Pre-trained Transformer Models",
    author = "Kumar, Varun  and
      Choudhary, Ashutosh  and
      Cho, Eunah",
    booktitle = "Proceedings of the 2nd Workshop on Life-long Learning for Spoken Language Systems",
    month = dec,
    year = "2020",
    address = "Suzhou, China",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.lifelongnlp-1.3",
    pages = "18--26",
}