Code im Zusammenhang mit dem Artikel „Datenerweiterung mithilfe vorab trainierter Transformatormodelle“.
Der Code enthält die Implementierung der folgenden Datenerweiterungsmethoden
In Papierform verwenden wir drei Datensätze aus den folgenden Quellen
Führen Sie die Datei src/utils/download_and_prepare_datasets.sh
aus, um alle Datensätze vorzubereiten.
download_and_prepare_datasets.sh
führt die folgenden Schritte aus
Um diesen Code auszuführen, benötigen Sie die folgenden Abhängigkeiten
Um ein Datenerweiterungsexperiment für einen bestimmten Datensatz auszuführen, führen Sie das Bash-Skript im scripts
aus. Um beispielsweise eine Datenerweiterung für snips
Datensatz auszuführen,
scripts/bart_snips_lower.sh
für das BART-Experiment ausscripts/bert_snips_lower.sh
für die restlichen Methoden zur Datenerweiterung aus @inproceedings{kumar-etal-2020-data,
title = "Data Augmentation using Pre-trained Transformer Models",
author = "Kumar, Varun and
Choudhary, Ashutosh and
Cho, Eunah",
booktitle = "Proceedings of the 2nd Workshop on Life-long Learning for Spoken Language Systems",
month = dec,
year = "2020",
address = "Suzhou, China",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.lifelongnlp-1.3",
pages = "18--26",
}
Bei Fragen zu diesem Code wenden Sie sich bitte an [email protected].
Dieses Projekt ist unter der Creative Common Attribution Non-Commercial 4.0-Lizenz lizenziert.