explain then predict
1.0.0
该存储库包含我们的 BlackBoxNLP 2024 @ EMNLP 论文的源代码:
使用解释增强自然语言推理中的对抗鲁棒性
在这项工作中,我们研究了在自然语言推理(NLI)任务中使用中间解释是否可以作为针对对抗性攻击的模型不可知的防御策略。我们的主张是,中间解释可以过滤掉输入对(前提、假设)中对抗性攻击叠加的潜在噪声。通过大量的实验,我们证明,在描述输入前提和假设之间的推理关系的中间解释上调节输出标签(蕴含、矛盾、中性),确实实现了对抗性鲁棒性。
该存储库组织在以下核心目录中:
fine-tuning
:包括用于训练和评估我们实验中使用的所有模型的代码。有关更多详细信息,请参阅fine-tuning
目录中的 README 文件。adversarial_attacks
:包括针对上述模型执行对抗性攻击的代码。有关更多详细信息,请参阅adversarial_attacks
目录中的 README 文件。 git clone https://github.com/alexkoulakos/explain-then-predict.git
cd explain-then-predict
virtualenv --system-site-packages venv
src venv/bin/activate
(适用于 Linux/MacOS)或./venv/Scripts/activate.ps1
(适用于 Windows)pip install -r requirements.txt
如果您遇到任何问题、错误或有疑问,请随时在 GitHub 上提出问题。描述您遇到的问题,包括:
我们将尽力快速响应并帮助解决任何问题。
如果您在工作中使用我们的发现,请不要忘记引用我们的论文:
@inproceedings{koulakos-etal-2024-enhancing,
title = "Enhancing adversarial robustness in Natural Language Inference using explanations",
author = "Koulakos, Alexandros and Lymperaiou, Maria and Filandrianos, Giorgos and Stamou, Giorgos",
editor = "Belinkov, Yonatan and Kim, Najoung and Jumelet, Jaap and Mohebbi, Hosein and Mueller, Aaron and Chen, Hanjie",
booktitle = "Proceedings of the 7th BlackboxNLP Workshop: Analyzing and Interpreting Neural Networks for NLP",
month = nov,
year = "2024",
address = "Miami, Florida, US",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.blackboxnlp-1.7",
pages = "105--117"
}