LAUG عبارة عن مجموعة أدوات مفتوحة المصدر لتعزيز فهم اللغة. إنها طريقة تلقائية لتقريب الاضطرابات الطبيعية للبيانات الموجودة. يمكن استخدام البيانات المعززة لإجراء اختبار قوة الصندوق الأسود أو تعزيز التدريب. [ورق]
تتطلب بيثون 3.6.
استنساخ هذا المستودع:
git clone https://github.com/thu-coai/LAUG.git
التثبيت عبر النقطة:
cd LAUG
pip install -e .
تنزيل البيانات والنماذج:
البيانات المستخدمة في ورقتنا ومعلمات النماذج التي تم تدريبها مسبقًا من قبلنا متاحة على الرابط. يرجى تنزيلها ووضعها في الدليل المقابل. للتعرف على معلمات النموذج التي أصدرها الآخرون، يرجى الرجوع إلى README.md
ضمن توجيهات كل طريقة زيادة مثل LAUG/aug/Speech_Recognition/README.md
.
فيما يلي طرق التعزيز الأربعة الموضحة في ورقتنا. يتم وضعها تحت LAUG/aug
dir.
Word_Perturbation/
دير.Text_Paraphrasing/
dir.Speech_Recognition/
دير.Speech_Disfluency/
dir.يرجى الاطلاع على ورقتنا وREADME.md في كل طريقة زيادة للحصول على معلومات مفصلة.
راجع demo.py
لاستخدام طرق التعزيز هذه.
python demo.py
مع ملاحظة أن أساليب التعزيز لدينا تحتوي على العديد من النماذج العصبية، يجب تنزيل المعلمات المدربة مسبقًا قبل الاستخدام. المعلمات التي تم تدريبها مسبقًا من قبلنا متاحة على الرابط. بالنسبة للمعلمات التي أصدرها الآخرون، يرجى اتباع تعليمات كل طريقة.
البيانات المستخدمة في ورقتنا متاحة على الرابط. يرجى تنزيله ووضعه data/
dir.
تحتوي بياناتنا على مجموعتي بيانات: MultiWOZ والإطارات، بالإضافة إلى نسخها المعززة.
MultiWOZ
data/multiwoz/
dir.data/multiwoz/WP
.data/multiwoz/TP
.data/multiwoz/SR
.data/multiwoz/SD
.data/multiwoz/Enhanced
.data/multiwoz/Real
dir.إطارات
data/Frames/
dir.data/Frames/WP
.data/Frames/TP
.data/Frames/SR
.data/Frames/SD
.data/Frames/Enhanced
. نحن نقدم أربعة نماذج NLU الأساسية الموضحة في ورقتنا:
هذه النماذج مقتبسة من ConvLab-2. لمزيد من التفاصيل، يمكنك الرجوع إلى README.md
ضمن LUAG/nlu/$model/$dataset
dir مثل LAUG/nlu/gpt/multiwoz/README.md
.
إذا كنت تستخدم LAUG في بحثك، يرجى ذكر ما يلي:
@inproceedings{liu2021robustness,
title={Robustness Testing of Language Understanding in Task-Oriented Dialog},
author={Liu, Jiexi and Takanobu, Ryuichi and Wen, Jiaxin and Wan, Dazhen and Li, Hongguang and Nie, Weiran and Li, Cheng and Peng, Wei and Huang, Minlie},
year={2021},
booktitle={Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics},
}
ترخيص أباتشي 2.0