Ce référentiel contient le code source de notre article BlackBoxNLP 2024 @ EMNLP :
Améliorer la robustesse contradictoire dans l'inférence en langage naturel à l'aide d'explications
Dans ce travail, nous étudions si l'utilisation d'explications intermédiaires dans la tâche d'inférence en langage naturel (NLI) peut servir de stratégie de défense indépendante du modèle contre les attaques adverses. Notre affirmation est que l’explication intermédiaire peut filtrer le bruit potentiel superposé par l’attaque contradictoire dans la paire d’entrée (prémisse, hypothèse). Grâce à une expérimentation approfondie, nous prouvons qu'en conditionnant l'étiquette de sortie (implication, contradiction, neutre) sur une explication intermédiaire qui décrit la relation d'inférence entre la prémisse d'entrée et l'hypothèse, la robustesse contradictoire est effectivement obtenue.
Le dépôt est organisé dans les répertoires principaux suivants :
fine-tuning
: inclut le code pour entraîner et évaluer tous les modèles utilisés dans nos expériences. Consultez le fichier README situé dans le répertoire fine-tuning
pour plus de détails.adversarial_attacks
: Inclut le code permettant d'effectuer des attaques contradictoires contre les modèles susmentionnés. Consultez le fichier README situé dans le répertoire adversarial_attacks
pour plus de détails. git clone https://github.com/alexkoulakos/explain-then-predict.git
cd explain-then-predict
virtualenv --system-site-packages venv
src venv/bin/activate
(pour Linux/MacOS) ou ./venv/Scripts/activate.ps1
(pour Windows)pip install -r requirements.txt
Si vous rencontrez des problèmes, des bugs ou si vous avez des questions, n'hésitez pas à ouvrir un ticket sur GitHub. Décrivez le problème que vous avez rencontré, notamment :
Nous ferons de notre mieux pour répondre rapidement et aider à résoudre tout problème.
Si vous utilisez nos résultats dans votre travail, n'oubliez pas de citer notre article :
@inproceedings{koulakos-etal-2024-enhancing,
title = "Enhancing adversarial robustness in Natural Language Inference using explanations",
author = "Koulakos, Alexandros and Lymperaiou, Maria and Filandrianos, Giorgos and Stamou, Giorgos",
editor = "Belinkov, Yonatan and Kim, Najoung and Jumelet, Jaap and Mohebbi, Hosein and Mueller, Aaron and Chen, Hanjie",
booktitle = "Proceedings of the 7th BlackboxNLP Workshop: Analyzing and Interpreting Neural Networks for NLP",
month = nov,
year = "2024",
address = "Miami, Florida, US",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.blackboxnlp-1.7",
pages = "105--117"
}