transformers data augmentation تنزيل - transformers data augmentation تنزيل كود المصدر

transformers data augmentation

شفرة المصدر الأخرى

1.0.0

تنزيل

زيادة البيانات باستخدام نماذج المحولات المدربة مسبقًا

الكود المرتبط بتعزيز البيانات باستخدام ورق نماذج المحولات المدربة مسبقًا

يحتوي الكود على تنفيذ طرق زيادة البيانات التالية

جمعية الإمارات للغوص (خط الأساس)
الترجمة العكسية (خط الأساس)
CBERT (خط الأساس)
بيرت مقدمة (ورقتنا)
GPT-2 Prepend (ورقتنا)
ملحق BART (ورقتنا)

مجموعات البيانات

في الورق، نستخدم ثلاث مجموعات بيانات من الموارد التالية

STSA-2: https://github.com/1024er/cbert_aug/tree/crayon/datasets/stsa.binary
تريك: https://github.com/1024er/cbert_aug/tree/crayon/datasets/TREC
القصاصات: https://github.com/MiuLab/SlotGated-SLU/tree/master/data/snips

إعداد تجربة نظام البيانات المنخفضة

قم بتشغيل ملف src/utils/download_and_prepare_datasets.sh لإعداد جميع مجموعات البيانات.
يقوم download_and_prepare_datasets.sh بتنفيذ الخطوات التالية

تنزيل البيانات من جيثب
استبدل التسميات الرقمية بنص لمجموعة بيانات STSA-2 وTREC
بالنسبة لمجموعة بيانات معينة، يتم إنشاء 15 تقسيمًا عشوائيًا لبيانات التدريب والمطورين.

التبعيات

لتشغيل هذا الرمز، تحتاج إلى التبعيات التالية

بيتورتش 1.5
فيرسيك 0.9
المحولات 2.9

كيفية الجري

لتشغيل تجربة زيادة البيانات لمجموعة بيانات معينة، قم بتشغيل البرنامج النصي bash في مجلد scripts . على سبيل المثال، لتشغيل زيادة البيانات في مجموعة بيانات snips ،

قم بتشغيل scripts/bart_snips_lower.sh لتجربة BART
قم بتشغيل scripts/bert_snips_lower.sh لبقية طرق زيادة البيانات

كيفية الاستشهاد

 @inproceedings{kumar-etal-2020-data,
    title = "Data Augmentation using Pre-trained Transformer Models",
    author = "Kumar, Varun  and
      Choudhary, Ashutosh  and
      Cho, Eunah",
    booktitle = "Proceedings of the 2nd Workshop on Life-long Learning for Spoken Language Systems",
    month = dec,
    year = "2020",
    address = "Suzhou, China",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.lifelongnlp-1.3",
    pages = "18--26",
}