Koushik Srivatsan Fahad Shamshad Muzammal 纳西尔·卡蒂克·南达库玛
阿联酋穆罕默德·本·扎耶德人工智能大学 (MBZUAI) 。
大规模文本到图像生成(T2IG)模型的快速扩散引发了人们对其可能被滥用来生成有害内容的担忧。尽管已经提出了许多方法来从 T2IG 模型中删除不需要的概念,但它们只提供了一种错误的安全感,因为最近的工作表明概念删除模型(CEM)很容易被欺骗,通过对抗性攻击生成删除的概念。在不显着降低模型效用(生成良性概念的能力)的情况下进行对抗性鲁棒概念擦除的问题仍然是一个尚未解决的挑战,特别是在对手可以访问 CEM 的白盒环境中。为了解决这一差距,我们提出了一种称为STEREO 的方法,该方法涉及两个不同的阶段。第一阶段充分搜索( STE )强大且多样化的对抗性提示,通过利用对抗性训练中强大的优化原理,可以重新生成 CEM 中删除的概念。在第二个鲁棒擦除一次( REO )阶段,我们引入了一种基于锚概念的组合目标,可以一次性鲁棒地擦除目标概念,同时尝试最大程度地减少模型效用的下降。通过在三种对抗性攻击下将所提出的STEREO方法与四种最先进的概念擦除方法进行基准测试,我们证明了其实现更好的鲁棒性与效用权衡的能力。
用于文本到图像生成的大规模扩散模型很容易受到对抗性攻击,尽管进行了擦除工作,但仍可能重新生成有害概念。我们引入了STEREO ,这是一种强大的方法,旨在防止这种再生,同时保留模型生成良性内容的能力。
立体声概述。我们提出了一种新颖的两阶段框架,用于从预先训练的文本到图像生成模型中删除对抗性鲁棒的概念,而不会显着影响良性概念的实用性。
第一阶段(上) :充分搜索(STE)遵循对抗性训练的稳健优化框架,并将概念擦除制定为最小-最大优化问题,以发现可以从擦除模型中重新生成目标概念的强对抗性提示。请注意,我们方法的核心新颖之处在于,我们使用 AT 并不是最终解决方案,而只是作为充分彻底搜索强对抗性提示的中间步骤。
第 2 阶段(底部) :稳健擦除一旦使用锚概念和来自第 1 阶段的一组强对抗性提示通过组合目标对模型进行微调,保持良性概念的高保真生成,同时稳健擦除目标概念。
如果您发现我们的工作和此存储库有用,请考虑给我们的存储库一颗星并引用我们的论文,如下所示:
@article { srivatsan2024stereo ,
title = { STEREO: Towards Adversarially Robust Concept Erasing from Text-to-Image Generation Models } ,
author = { Srivatsan, Koushik and Shamshad, Fahad and Naseer, Muzammal and Nandakumar, Karthik } ,
journal = { arXiv preprint arXiv:2408.16807 } ,
year = { 2024 }
}
如果您有任何疑问,请在此存储库上创建问题或通过 [email protected] 联系。
我们的代码构建在 ESD 存储库之上。我们感谢作者发布他们的代码。