Koushik Srivatsan Fahad Shamshad Muzammal Naseer Karthik Nandakumar
Université d'intelligence artificielle Mohamed bin Zayed (MBZUAI), Émirats arabes unis .
La prolifération rapide des modèles de génération de texte en image (T2IG) à grande échelle a suscité des inquiétudes quant à leur utilisation abusive potentielle pour générer du contenu préjudiciable. Bien que de nombreuses méthodes aient été proposées pour effacer les concepts indésirables des modèles T2IG, elles ne fournissent qu'un faux sentiment de sécurité, car des travaux récents démontrent que les modèles à concept effacé (CEM) peuvent être facilement trompés pour générer le concept effacé par le biais d'attaques contradictoires. Le problème de l’effacement de concepts robuste sans dégradation significative de l’utilité du modèle (capacité à générer des concepts inoffensifs) reste un défi non résolu, en particulier dans le contexte de la boîte blanche où l’adversaire a accès au CEM. Pour combler cette lacune, nous proposons une approche appelée STEREO qui comporte deux étapes distinctes. La première étape recherche de manière approfondie ( STE ) des invites contradictoires fortes et diverses qui peuvent régénérer un concept effacé d'un CEM, en tirant parti des principes d'optimisation robustes de la formation contradictoire. Dans la deuxième étape d'effacement robuste une fois ( REO ), nous introduisons un objectif de composition basé sur un concept d'ancrage pour effacer de manière robuste le concept cible en une seule fois, tout en essayant de minimiser la dégradation de l'utilité du modèle. En comparant l'approche STEREO proposée à quatre méthodes d'effacement de concepts de pointe sous trois attaques contradictoires, nous démontrons sa capacité à obtenir un meilleur compromis entre robustesse et utilité.
Les modèles de diffusion à grande échelle pour la génération de texte en image sont sensibles aux attaques contradictoires qui peuvent régénérer des concepts nuisibles malgré les efforts d'effacement. Nous introduisons STEREO , une approche robuste conçue pour empêcher cette régénération tout en préservant la capacité du modèle à générer du contenu inoffensif.
Présentation de STÉRÉO . Nous proposons un nouveau cadre en deux étapes pour l'effacement de concepts robuste et contradictoire à partir de modèles de génération de texte en image pré-entraînés sans affecter de manière significative l'utilité des concepts bénins.
Étape 1 (en haut) : Search Thoroughly Enough (STE) suit le cadre d'optimisation robuste de Adversarial Training et formule l'effacement de concepts comme un problème d'optimisation min-max, pour découvrir des invites contradictoires fortes qui peuvent régénérer les concepts cibles à partir de modèles effacés. Notez que la principale nouveauté de notre approche réside dans le fait que nous utilisons l’AT non pas comme solution finale, mais uniquement comme étape intermédiaire pour rechercher suffisamment en profondeur les invites contradictoires fortes.
Étape 2 (en bas) : Effacer de manière robuste une fois affine le modèle à l'aide d'un concept d'ancrage et de l'ensemble d'invites contradictoires fortes de l'étape 1 via un objectif de composition, en maintenant une génération haute fidélité de concepts inoffensifs tout en effaçant de manière robuste le concept cible.
Si vous trouvez notre travail et ce référentiel utiles, pensez à donner une étoile à notre dépôt et à citer notre article comme suit :
@article { srivatsan2024stereo ,
title = { STEREO: Towards Adversarially Robust Concept Erasing from Text-to-Image Generation Models } ,
author = { Srivatsan, Koushik and Shamshad, Fahad and Naseer, Muzammal and Nandakumar, Karthik } ,
journal = { arXiv preprint arXiv:2408.16807 } ,
year = { 2024 }
}
Si vous avez des questions, veuillez créer un problème sur ce référentiel ou contacter à [email protected].
Notre code est construit sur le référentiel ESD. Nous remercions les auteurs d'avoir publié leur code.