explain then predict
1.0.0
이 저장소에는 BlackBoxNLP 2024 @ EMNLP 문서의 소스 코드가 포함되어 있습니다.
설명을 사용하여 자연어 추론의 적대적 견고성 강화
본 연구에서는 자연어 추론(NLI) 작업에서 중간 설명을 사용하는 것이 적대적 공격에 대한 모델에 구애받지 않는 방어 전략으로 사용될 수 있는지 조사합니다. 우리의 주장은 중간 설명이 입력 쌍(전제, 가설)에서 적대적 공격에 의해 중첩된 잠재적인 노이즈를 필터링할 수 있다는 것입니다. 광범위한 실험을 통해 우리는 입력 전제와 가설 사이의 추론 관계를 설명하는 중간 설명에 대한 출력 레이블(수반, 모순, 중립)을 조건화하여 적대적 견고성이 실제로 달성되었음을 증명합니다.
저장소는 다음 핵심 디렉터리로 구성됩니다.
fine-tuning
: 실험에 사용되는 모든 모델을 훈련하고 평가하기 위한 코드가 포함되어 있습니다. 자세한 내용은 fine-tuning
디렉터리에 있는 README 파일을 참조하세요.adversarial_attacks
: 앞서 언급한 모델에 대해 적대적 공격을 수행하기 위한 코드를 포함합니다. 자세한 내용은 adversarial_attacks
디렉터리에 있는 README 파일을 참조하세요. git clone https://github.com/alexkoulakos/explain-then-predict.git
cd explain-then-predict
virtualenv --system-site-packages venv
src venv/bin/activate
(Linux/MacOS의 경우) 또는 ./venv/Scripts/activate.ps1
의 경우)pip install -r requirements.txt
문제나 버그가 발생하거나 질문이 있는 경우 언제든지 GitHub에서 문제를 열어주세요. 다음을 포함하여 발생한 문제를 설명하십시오.
신속한 대응과 문제 해결을 위해 최선을 다하겠습니다.
귀하의 작업에 우리가 발견한 내용을 사용하는 경우, 우리 논문을 인용하는 것을 잊지 마십시오:
@inproceedings{koulakos-etal-2024-enhancing,
title = "Enhancing adversarial robustness in Natural Language Inference using explanations",
author = "Koulakos, Alexandros and Lymperaiou, Maria and Filandrianos, Giorgos and Stamou, Giorgos",
editor = "Belinkov, Yonatan and Kim, Najoung and Jumelet, Jaap and Mohebbi, Hosein and Mueller, Aaron and Chen, Hanjie",
booktitle = "Proceedings of the 7th BlackboxNLP Workshop: Analyzing and Interpreting Neural Networks for NLP",
month = nov,
year = "2024",
address = "Miami, Florida, US",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.blackboxnlp-1.7",
pages = "105--117"
}