explain then predict
1.0.0
該儲存庫包含我們的 BlackBoxNLP 2024 @ EMNLP 論文的源代碼:
使用解釋增強自然語言推理中的對抗穩健性
在這項工作中,我們研究了在自然語言推理(NLI)任務中使用中間解釋是否可以作為對抗性攻擊的模型不可知的防禦策略。我們的主張是,中間解釋可以過濾掉輸入對(前提、假設)中對抗性攻擊疊加的潛在雜訊。透過大量的實驗,我們證明,在描述輸入前提和假設之間的推理關係的中間解釋上調節輸出標籤(蘊涵、矛盾、中性),確實實現了對抗性魯棒性。
該存儲庫組織在以下核心目錄中:
fine-tuning
:包括用於訓練和評估我們實驗中使用的所有模型的程式碼。有關更多詳細信息,請參閱fine-tuning
目錄中的 README 文件。adversarial_attacks
:包含針對上述模型執行對抗性攻擊的程式碼。有關更多詳細信息,請參閱adversarial_attacks
目錄中的 README 文件。 git clone https://github.com/alexkoulakos/explain-then-predict.git
cd explain-then-predict
virtualenv --system-site-packages venv
src venv/bin/activate
(適用於 Linux/MacOS)或./venv/Scripts/activate.ps1
(適用於 Windows)pip install -r requirements.txt
如果您遇到任何問題、錯誤或有疑問,請隨時在 GitHub 上提出問題。描述您遇到的問題,包括:
我們將盡力快速回應並協助解決任何問題。
如果您在工作中使用我們的發現,請不要忘記引用我們的論文:
@inproceedings{koulakos-etal-2024-enhancing,
title = "Enhancing adversarial robustness in Natural Language Inference using explanations",
author = "Koulakos, Alexandros and Lymperaiou, Maria and Filandrianos, Giorgos and Stamou, Giorgos",
editor = "Belinkov, Yonatan and Kim, Najoung and Jumelet, Jaap and Mohebbi, Hosein and Mueller, Aaron and Chen, Hanjie",
booktitle = "Proceedings of the 7th BlackboxNLP Workshop: Analyzing and Interpreting Neural Networks for NLP",
month = nov,
year = "2024",
address = "Miami, Florida, US",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.blackboxnlp-1.7",
pages = "105--117"
}