Dieses Repository enthält den Quellcode für unser BlackBoxNLP 2024 @ EMNLP-Papier:
Verbesserung der kontradiktorischen Robustheit bei der Inferenz natürlicher Sprache mithilfe von Erklärungen
In dieser Arbeit untersuchen wir, ob die Verwendung von Zwischenerklärungen in der NLI-Aufgabe (Natural Language Inference) als modellagnostische Verteidigungsstrategie gegen gegnerische Angriffe dienen kann. Unsere Behauptung ist, dass die Zwischenerklärung potenzielles Rauschen herausfiltern kann, das durch den gegnerischen Angriff im Eingabepaar (Prämisse, Hypothese) überlagert wird. Durch umfangreiche Experimente beweisen wir, dass durch die Konditionierung der Ausgabebezeichnung (Folge, Widerspruch, Neutral) auf einer Zwischenerklärung, die die Schlussfolgerungsbeziehung zwischen der Eingabeprämisse und der Hypothese beschreibt, tatsächlich kontradiktorische Robustheit erreicht wird.
Das Repo ist in den folgenden Kernverzeichnissen organisiert:
fine-tuning
: Enthält den Code zum Trainieren und Bewerten aller Modelle, die in unseren Experimenten verwendet werden. Weitere Einzelheiten finden Sie in der README-Datei im fine-tuning
Verzeichnis.adversarial_attacks
: Enthält den Code zur Durchführung gegnerischer Angriffe gegen die oben genannten Modelle. Weitere Einzelheiten finden Sie in der README-Datei im Verzeichnis adversarial_attacks
. git clone https://github.com/alexkoulakos/explain-then-predict.git
cd explain-then-predict
virtualenv --system-site-packages venv
src venv/bin/activate
(für Linux/MacOS) oder ./venv/Scripts/activate.ps1
(für Windows)pip install -r requirements.txt
Wenn Sie auf Probleme oder Fehler stoßen oder Fragen haben, können Sie gerne ein Problem auf GitHub eröffnen. Beschreiben Sie das Problem, auf das Sie gestoßen sind, einschließlich:
Wir werden unser Bestes tun, um schnell zu reagieren und bei der Lösung etwaiger Probleme zu helfen.
Wenn Sie unsere Erkenntnisse in Ihrer Arbeit nutzen, vergessen Sie nicht, unseren Artikel zu zitieren:
@inproceedings{koulakos-etal-2024-enhancing,
title = "Enhancing adversarial robustness in Natural Language Inference using explanations",
author = "Koulakos, Alexandros and Lymperaiou, Maria and Filandrianos, Giorgos and Stamou, Giorgos",
editor = "Belinkov, Yonatan and Kim, Najoung and Jumelet, Jaap and Mohebbi, Hosein and Mueller, Aaron and Chen, Hanjie",
booktitle = "Proceedings of the 7th BlackboxNLP Workshop: Analyzing and Interpreting Neural Networks for NLP",
month = nov,
year = "2024",
address = "Miami, Florida, US",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.blackboxnlp-1.7",
pages = "105--117"
}