Kode yang terkait dengan Augmentasi Data menggunakan kertas Model Transformer yang telah dilatih sebelumnya
Kode berisi implementasi metode augmentasi data berikut
Secara kertas, kami menggunakan tiga kumpulan data dari sumber berikut
Jalankan file src/utils/download_and_prepare_datasets.sh
untuk menyiapkan semua dataset.
download_and_prepare_datasets.sh
melakukan langkah-langkah berikut
Untuk menjalankan kode ini, Anda memerlukan dependensi berikut
Untuk menjalankan eksperimen augmentasi data untuk kumpulan data tertentu, jalankan skrip bash di folder scripts
. Misalnya, untuk menjalankan augmentasi data pada kumpulan data snips
,
scripts/bart_snips_lower.sh
untuk eksperimen BARTscripts/bert_snips_lower.sh
untuk metode augmentasi data lainnya @inproceedings{kumar-etal-2020-data,
title = "Data Augmentation using Pre-trained Transformer Models",
author = "Kumar, Varun and
Choudhary, Ashutosh and
Cho, Eunah",
booktitle = "Proceedings of the 2nd Workshop on Life-long Learning for Spoken Language Systems",
month = dec,
year = "2020",
address = "Suzhou, China",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.lifelongnlp-1.3",
pages = "18--26",
}
Silakan hubungi [email protected] untuk pertanyaan apa pun terkait kode ini.
Proyek ini dilisensikan di bawah lisensi Creative Common Attribution Non-Commercial 4.0.