Code associé à l'article sur l'augmentation des données à l'aide de modèles de transformateur pré-entraînés
Le code contient la mise en œuvre des méthodes d'augmentation des données suivantes
Sur papier, nous utilisons trois ensembles de données provenant des ressources suivantes
Exécutez le fichier src/utils/download_and_prepare_datasets.sh
pour préparer tous les ensembles de données.
download_and_prepare_datasets.sh
effectue les étapes suivantes
Pour exécuter ce code, vous avez besoin des dépendances suivantes
Pour exécuter une expérience d'augmentation des données pour un ensemble de données donné, exécutez le script bash dans le dossier scripts
. Par exemple, pour exécuter une augmentation des données sur un ensemble de données snips
,
scripts/bart_snips_lower.sh
pour l'expérience BARTscripts/bert_snips_lower.sh
pour le reste des méthodes d'augmentation des données @inproceedings{kumar-etal-2020-data,
title = "Data Augmentation using Pre-trained Transformer Models",
author = "Kumar, Varun and
Choudhary, Ashutosh and
Cho, Eunah",
booktitle = "Proceedings of the 2nd Workshop on Life-long Learning for Spoken Language Systems",
month = dec,
year = "2020",
address = "Suzhou, China",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.lifelongnlp-1.3",
pages = "18--26",
}
Veuillez contacter [email protected] pour toute question relative à ce code.
Ce projet est sous licence Creative Common Attribution Non-Commercial 4.0.