Этот репозиторий содержит исходный код нашей статьи BlackBoxNLP 2024 @ EMNLP:
Повышение состязательной устойчивости при выводе на естественном языке с помощью объяснений
В этой работе мы исследуем, может ли использование промежуточных объяснений в задаче вывода естественного языка (NLI) служить независимой от модели стратегией защиты от состязательных атак. Мы утверждаем, что промежуточное объяснение может отфильтровать потенциальный шум, наложенный состязательной атакой во входной паре (предпосылка, гипотеза). Посредством обширных экспериментов мы доказываем, что, обуславливая выходную метку (следствие, противоречие, нейтральность) промежуточным объяснением, которое описывает отношения вывода между входной предпосылкой и гипотезой, действительно достигается состязательная устойчивость.
Репо организовано в следующих основных каталогах:
fine-tuning
: включает код для обучения и оценки всех моделей, которые используются в наших экспериментах. Дополнительную информацию см. в файле README, расположенном в каталоге fine-tuning
.adversarial_attacks
: включает код для выполнения состязательных атак на вышеупомянутые модели. Дополнительную информацию см. в файле README, расположенном в каталоге adversarial_attacks
. git clone https://github.com/alexkoulakos/explain-then-predict.git
cd explain-then-predict
virtualenv --system-site-packages venv
src venv/bin/activate
(для Linux/MacOS) или ./venv/Scripts/activate.ps1
(для Windows).pip install -r requirements.txt
Если у вас возникнут какие-либо проблемы, ошибки или возникнут вопросы, смело открывайте проблему на GitHub. Опишите проблему, с которой вы столкнулись, включая:
Мы сделаем все возможное, чтобы быстро отреагировать и помочь решить любые проблемы.
Если вы используете наши выводы в своей работе, не забудьте процитировать нашу статью:
@inproceedings{koulakos-etal-2024-enhancing,
title = "Enhancing adversarial robustness in Natural Language Inference using explanations",
author = "Koulakos, Alexandros and Lymperaiou, Maria and Filandrianos, Giorgos and Stamou, Giorgos",
editor = "Belinkov, Yonatan and Kim, Najoung and Jumelet, Jaap and Mohebbi, Hosein and Mueller, Aaron and Chen, Hanjie",
booktitle = "Proceedings of the 7th BlackboxNLP Workshop: Analyzing and Interpreting Neural Networks for NLP",
month = nov,
year = "2024",
address = "Miami, Florida, US",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.blackboxnlp-1.7",
pages = "105--117"
}