Код, связанный с расширением данных с использованием документа «Предварительно обученные модели трансформаторов»
Код содержит реализацию следующих методов увеличения данных.
В статье мы используем три набора данных из следующих ресурсов.
Запустите файл src/utils/download_and_prepare_datasets.sh
чтобы подготовить все наборы данных.
download_and_prepare_datasets.sh
выполняет следующие шаги
Чтобы запустить этот код, вам нужны следующие зависимости
Чтобы запустить эксперимент по увеличению данных для данного набора данных, запустите сценарий bash в папке scripts
. Например, чтобы запустить увеличение данных в наборе данных snips
,
scripts/bart_snips_lower.sh
для эксперимента BARTscripts/bert_snips_lower.sh
для остальных методов увеличения данных @inproceedings{kumar-etal-2020-data,
title = "Data Augmentation using Pre-trained Transformer Models",
author = "Kumar, Varun and
Choudhary, Ashutosh and
Cho, Eunah",
booktitle = "Proceedings of the 2nd Workshop on Life-long Learning for Spoken Language Systems",
month = dec,
year = "2020",
address = "Suzhou, China",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.lifelongnlp-1.3",
pages = "18--26",
}
Если у вас возникнут вопросы, связанные с этим кодом, обращайтесь по адресу [email protected].
Этот проект распространяется по лицензии Creative Common Attribution Non-Commercial 4.0.