يحتوي هذا المستودع على الكود المصدري لورقة BlackBoxNLP 2024 @ EMNLP الخاصة بنا:
تعزيز قوة الخصومة في الاستدلال باللغة الطبيعية باستخدام التفسيرات
في هذا العمل، نتحقق مما إذا كان استخدام التفسيرات الوسيطة في مهمة استدلال اللغة الطبيعية (NLI) يمكن أن يكون بمثابة استراتيجية دفاعية غير محددة النموذج ضد هجمات الخصومة. ادعائنا هو أن التفسير الوسيط يمكنه تصفية الضوضاء المحتملة التي يفرضها الهجوم العدائي في زوج الإدخال (الفرضية، الفرضية). من خلال التجارب المكثفة، أثبتنا أن تكييف تسمية المخرجات (استلزام، تناقض، محايد) على تفسير وسيط يصف العلاقة الاستدلالية بين فرضية المدخلات والفرضية، يتم تحقيق متانة الخصومة بالفعل.
يتم تنظيم الريبو في الدلائل الأساسية التالية:
fine-tuning
: يتضمن الكود الخاص بتدريب وتقييم جميع النماذج المستخدمة في تجاربنا. راجع ملف README الموجود في دليل fine-tuning
لمزيد من التفاصيل.adversarial_attacks
: يتضمن الكود الخاص بتنفيذ الهجمات العدائية ضد النماذج المذكورة أعلاه. راجع ملف README الموجود في دليل adversarial_attacks
لمزيد من التفاصيل. git clone https://github.com/alexkoulakos/explain-then-predict.git
cd explain-then-predict
virtualenv --system-site-packages venv
src venv/bin/activate
(لنظام التشغيل Linux/MacOS) أو ./venv/Scripts/activate.ps1
(لنظام التشغيل Windows)pip install -r requirements.txt
إذا واجهت أي مشكلات أو أخطاء أو كانت لديك أسئلة، فلا تتردد في فتح مشكلة على GitHub. قم بوصف المشكلة التي واجهتها، بما في ذلك:
سنبذل قصارى جهدنا للرد بسرعة والمساعدة في حل أي مشاكل.
إذا كنت تستخدم النتائج التي توصلنا إليها في عملك، فلا تنس أن تستشهد بمقالتنا:
@inproceedings{koulakos-etal-2024-enhancing,
title = "Enhancing adversarial robustness in Natural Language Inference using explanations",
author = "Koulakos, Alexandros and Lymperaiou, Maria and Filandrianos, Giorgos and Stamou, Giorgos",
editor = "Belinkov, Yonatan and Kim, Najoung and Jumelet, Jaap and Mohebbi, Hosein and Mueller, Aaron and Chen, Hanjie",
booktitle = "Proceedings of the 7th BlackboxNLP Workshop: Analyzing and Interpreting Neural Networks for NLP",
month = nov,
year = "2024",
address = "Miami, Florida, US",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.blackboxnlp-1.7",
pages = "105--117"
}