Este repositorio contiene el código fuente de nuestro artículo BlackBoxNLP 2024 @ EMNLP:
Mejora de la solidez adversarial en la inferencia del lenguaje natural mediante explicaciones
En este trabajo, investigamos si el uso de explicaciones intermedias en la tarea de Inferencia del Lenguaje Natural (NLI) puede servir como una estrategia de defensa independiente del modelo contra ataques adversarios. Nuestra afirmación es que la explicación intermedia puede filtrar el ruido potencial superpuesto por el ataque adversario en el par de entrada (premisa, hipótesis). A través de una extensa experimentación, demostramos que condicionando la etiqueta de salida (vinculación, contradicción, neutral) a una explicación intermedia que describa la relación de inferencia entre la premisa de entrada y la hipótesis, de hecho se logra robustez adversarial.
El repositorio está organizado en los siguientes directorios principales:
fine-tuning
: Incluye el código para entrenar y evaluar todos los modelos que se utilizan en nuestros experimentos. Consulte el archivo README ubicado en el directorio fine-tuning
para obtener más detalles.adversarial_attacks
: Incluye el código para realizar ataques adversarios contra los modelos antes mencionados. Consulte el archivo README ubicado en el directorio adversarial_attacks
para obtener más detalles. git clone https://github.com/alexkoulakos/explain-then-predict.git
cd explain-then-predict
virtualenv --system-site-packages venv
src venv/bin/activate
(para Linux/MacOS) o ./venv/Scripts/activate.ps1
(para Windows)pip install -r requirements.txt
Si encuentra algún problema, error o tiene preguntas, no dude en abrir un problema en GitHub. Describa el problema que encontró, incluyendo:
Haremos todo lo posible para responder rápidamente y ayudar a resolver cualquier problema.
Si utiliza nuestros hallazgos en su trabajo, no olvide citar nuestro artículo:
@inproceedings{koulakos-etal-2024-enhancing,
title = "Enhancing adversarial robustness in Natural Language Inference using explanations",
author = "Koulakos, Alexandros and Lymperaiou, Maria and Filandrianos, Giorgos and Stamou, Giorgos",
editor = "Belinkov, Yonatan and Kim, Najoung and Jumelet, Jaap and Mohebbi, Hosein and Mueller, Aaron and Chen, Hanjie",
booktitle = "Proceedings of the 7th BlackboxNLP Workshop: Analyzing and Interpreting Neural Networks for NLP",
month = nov,
year = "2024",
address = "Miami, Florida, US",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.blackboxnlp-1.7",
pages = "105--117"
}