Este repositório contém o código-fonte de nosso artigo BlackBoxNLP 2024 @ EMNLP:
Aumentando a robustez adversária na inferência de linguagem natural usando explicações
Neste trabalho, investigamos se o uso de explicações intermediárias na tarefa de Inferência de Linguagem Natural (NLI) pode servir como uma estratégia de defesa independente do modelo contra ataques adversários. Nossa afirmação é que a explicação intermediária pode filtrar o ruído potencial sobreposto pelo ataque adversário no par de entrada (premissa, hipótese). Através de extensa experimentação, provamos que condicionando o rótulo de saída (implicação, contradição, neutro) a uma explicação intermediária que descreve a relação de inferência entre a premissa de entrada e a hipótese, a robustez adversária é de fato alcançada.
O repositório está organizado nos seguintes diretórios principais:
fine-tuning
: Inclui o código para treinar e avaliar todos os modelos que são usados em nossos experimentos. Consulte o arquivo README localizado no diretório fine-tuning
para obter mais detalhes.adversarial_attacks
: Inclui o código para realizar ataques adversários contra os modelos mencionados acima. Consulte o arquivo README localizado no diretório adversarial_attacks
para obter mais detalhes. git clone https://github.com/alexkoulakos/explain-then-predict.git
cd explain-then-predict
virtualenv --system-site-packages venv
src venv/bin/activate
(para Linux/MacOS) ou ./venv/Scripts/activate.ps1
(para Windows)pip install -r requirements.txt
Se você encontrar algum problema, bug ou tiver dúvidas, sinta-se à vontade para abrir um problema no GitHub. Descreva o problema que você encontrou, incluindo:
Faremos o nosso melhor para responder rapidamente e ajudar a resolver quaisquer problemas.
Se você usar nossas descobertas em seu trabalho, não se esqueça de citar nosso artigo:
@inproceedings{koulakos-etal-2024-enhancing,
title = "Enhancing adversarial robustness in Natural Language Inference using explanations",
author = "Koulakos, Alexandros and Lymperaiou, Maria and Filandrianos, Giorgos and Stamou, Giorgos",
editor = "Belinkov, Yonatan and Kim, Najoung and Jumelet, Jaap and Mohebbi, Hosein and Mueller, Aaron and Chen, Hanjie",
booktitle = "Proceedings of the 7th BlackboxNLP Workshop: Analyzing and Interpreting Neural Networks for NLP",
month = nov,
year = "2024",
address = "Miami, Florida, US",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.blackboxnlp-1.7",
pages = "105--117"
}