Koushik Srivatsan Fahad Shamshad Muzammal Naseer Karthik Nandakumar
Universidade Mohamed bin Zayed de Inteligência Artificial (MBZUAI), Emirados Árabes Unidos .
A rápida proliferação de modelos de geração de texto para imagem (T2IG) em grande escala levou a preocupações sobre o seu potencial uso indevido na geração de conteúdos nocivos. Embora muitos métodos tenham sido propostos para apagar conceitos indesejados dos modelos T2IG, eles apenas fornecem uma falsa sensação de segurança, pois trabalhos recentes demonstram que os modelos de conceito apagado (CEMs) podem ser facilmente enganados para gerar o conceito apagado através de ataques adversários. O problema do apagamento de conceitos robustos do adversário sem degradação significativa da utilidade do modelo (capacidade de gerar conceitos benignos) continua a ser um desafio não resolvido, especialmente no cenário de caixa branca onde o adversário tem acesso ao CEM. Para resolver esta lacuna, propomos uma abordagem chamada STEREO que envolve duas etapas distintas. O primeiro estágio procura completamente o suficiente ( STE ) para estímulos adversários fortes e diversos que podem regenerar um conceito apagado de um CEM, aproveitando princípios robustos de otimização do treinamento adversário. No segundo estágio R obustly Erase Once ( REO ), introduzimos um objetivo composicional baseado em conceito de âncora para apagar de forma robusta o conceito alvo de uma só vez, enquanto tentamos minimizar a degradação na utilidade do modelo. Ao comparar a abordagem STEREO proposta com quatro métodos de apagamento de conceito de última geração sob três ataques adversários, demonstramos sua capacidade de alcançar uma melhor compensação entre robustez e utilidade.
Modelos de difusão em larga escala para geração de texto em imagem são suscetíveis a ataques adversários que podem regenerar conceitos prejudiciais, apesar dos esforços de apagamento. Apresentamos STEREO , uma abordagem robusta projetada para evitar essa regeneração, preservando ao mesmo tempo a capacidade do modelo de gerar conteúdo benigno.
Visão geral do ESTÉREO . Propomos uma nova estrutura de dois estágios para o apagamento de conceitos robustos e adversários de modelos pré-treinados de geração de texto para imagem, sem afetar significativamente a utilidade de conceitos benignos.
Estágio 1 (topo) : Pesquisa Completamente Suficiente (STE) segue a estrutura de otimização robusta do Treinamento Adversarial e formula o apagamento de conceito como um problema de otimização mínimo-máximo, para descobrir fortes prompts adversários que podem regenerar conceitos alvo a partir de modelos apagados. Note-se que a principal novidade da nossa abordagem reside no facto de empregarmos a TA não como uma solução final, mas apenas como um passo intermédio para procurar suficientemente suficientemente fortes estímulos adversários.
Estágio 2 (parte inferior) : Apagar Robustamente Uma vez que ajusta o modelo usando um conceito de âncora e o conjunto de fortes estímulos adversários do Estágio 1 por meio de um objetivo de composição, mantendo a geração de alta fidelidade de conceitos benignos enquanto apaga de forma robusta o conceito de alvo.
Se você achar nosso trabalho e este repositório úteis, considere dar uma estrela ao nosso repositório e citar nosso artigo da seguinte forma:
@article { srivatsan2024stereo ,
title = { STEREO: Towards Adversarially Robust Concept Erasing from Text-to-Image Generation Models } ,
author = { Srivatsan, Koushik and Shamshad, Fahad and Naseer, Muzammal and Nandakumar, Karthik } ,
journal = { arXiv preprint arXiv:2408.16807 } ,
year = { 2024 }
}
Se você tiver alguma dúvida, crie um problema neste repositório ou entre em contato com [email protected].
Nosso código é construído sobre o repositório ESD. Agradecemos aos autores por liberar seu código.