Repositori ini berisi kode sumber untuk makalah BlackBoxNLP 2024 @ EMNLP kami:
Meningkatkan ketahanan permusuhan dalam Inferensi Bahasa Alami menggunakan penjelasan
Dalam karya ini, kami menyelidiki apakah penggunaan penjelasan perantara dalam tugas Natural Language Inference (NLI) dapat berfungsi sebagai strategi pertahanan model-agnostik terhadap serangan permusuhan. Klaim kami adalah bahwa penjelasan perantara dapat menyaring potensi gangguan yang ditimbulkan oleh serangan permusuhan pada pasangan masukan (premis, hipotesis). Melalui eksperimen ekstensif, kami membuktikan bahwa mengkondisikan label keluaran (entailment, kontradiksi, netral) pada penjelasan perantara yang menggambarkan hubungan inferensi antara premis masukan dan hipotesis, ketahanan permusuhan memang tercapai.
Repo diatur dalam direktori inti berikut:
fine-tuning
: Menyertakan kode untuk melatih dan mengevaluasi semua model yang digunakan dalam eksperimen kami. Lihat file README yang terletak di direktori fine-tuning
untuk lebih jelasnya.adversarial_attacks
: Berisi kode untuk melakukan serangan adversarial terhadap model yang disebutkan di atas. Lihat file README yang terletak di direktori adversarial_attacks
untuk lebih jelasnya. git clone https://github.com/alexkoulakos/explain-then-predict.git
cd explain-then-predict
virtualenv --system-site-packages venv
src venv/bin/activate
(untuk Linux/MacOS) atau ./venv/Scripts/activate.ps1
(untuk Windows)pip install -r requirements.txt
Jika Anda mengalami masalah, bug, atau memiliki pertanyaan, jangan ragu untuk membuka masalah di GitHub. Jelaskan masalah yang Anda alami, antara lain:
Kami akan melakukan yang terbaik untuk merespons dengan cepat dan membantu menyelesaikan masalah apa pun.
Jika Anda menggunakan temuan kami dalam pekerjaan Anda, jangan lupa untuk mengutip makalah kami:
@inproceedings{koulakos-etal-2024-enhancing,
title = "Enhancing adversarial robustness in Natural Language Inference using explanations",
author = "Koulakos, Alexandros and Lymperaiou, Maria and Filandrianos, Giorgos and Stamou, Giorgos",
editor = "Belinkov, Yonatan and Kim, Najoung and Jumelet, Jaap and Mohebbi, Hosein and Mueller, Aaron and Chen, Hanjie",
booktitle = "Proceedings of the 7th BlackboxNLP Workshop: Analyzing and Interpreting Neural Networks for NLP",
month = nov,
year = "2024",
address = "Miami, Florida, US",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.blackboxnlp-1.7",
pages = "105--117"
}