Koushik Srivatsan Fahad Shamshad Muzammal 納西爾·卡蒂克·南達庫瑪
阿聯酋穆罕默德·本·扎耶德人工智慧大學 (MBZUAI) 。
大規模文本到圖像生成(T2IG)模型的迅速擴散引發了人們對其可能被濫用來產生有害內容的擔憂。儘管已經提出了許多方法來從T2IG 模型中刪除不需要的概念,但它們只提供了一種錯誤的安全感,因為最近的工作表明,概念刪除模型(CEM)很容易被欺騙,透過對抗性攻擊產生刪除的概念。在不顯著降低模型效用(生成良性概念的能力)的情況下進行對抗性穩健概念擦除的問題仍然是一個尚未解決的挑戰,特別是在對手可以訪問 CEM 的白盒環境中。為了解決這一差距,我們提出了一種稱為STEREO 的方法,該方法涉及兩個不同的階段。第一階段充分搜尋( STE )強大且多樣化的對抗性提示,透過利用對抗性訓練中強大的最佳化原理,可以重新生成 CEM 中刪除的概念。在第二個魯棒擦除一次( REO )階段,我們引入了一個基於錨概念的組合目標,可以一次魯棒地擦除目標概念,同時嘗試最大程度地減少模型效用的下降。透過在三種對抗性攻擊下將所提出的STEREO方法與四種最先進的概念擦除方法進行基準測試,我們證明了其實現更好的穩健性與效用權衡的能力。
用於文字到圖像生成的大規模擴散模型很容易受到對抗性攻擊,儘管進行了擦除工作,但仍可能重新生成有害概念。我們引入了STEREO ,這是一種強大的方法,旨在防止這種再生,同時保留模型生成良性內容的能力。
立體聲概述。我們提出了一種新穎的兩階段框架,用於從預先訓練的文本到圖像生成模型中刪除對抗性穩健的概念,而不會顯著影響良性概念的實用性。
第一階段(上) :充分搜尋(STE)遵循對抗性訓練的穩健最佳化框架,並將概念擦除制定為最小-最大最佳化問題,以發現可以從擦除模型中重新生成目標概念的強對抗性提示。請注意,我們方法的核心新穎之處在於,我們使用 AT 並不是最終解決方案,而只是作為中間步驟,以足夠徹底地搜尋強對抗性提示。
第 2 階段(下) :穩健擦除一旦使用錨概念和來自第 1 階段的一組強對抗性提示透過組合目標對模型進行微調,保持良性概念的高保真生成,同時穩健擦除目標概念。
如果您發現我們的工作和此存儲庫有用,請考慮給我們的存儲庫一顆星並引用我們的論文,如下所示:
@article { srivatsan2024stereo ,
title = { STEREO: Towards Adversarially Robust Concept Erasing from Text-to-Image Generation Models } ,
author = { Srivatsan, Koushik and Shamshad, Fahad and Naseer, Muzammal and Nandakumar, Karthik } ,
journal = { arXiv preprint arXiv:2408.16807 } ,
year = { 2024 }
}
如果您有任何疑問,請在此儲存庫上建立問題或透過 [email protected] 聯繫。
我們的程式碼建構在 ESD 儲存庫之上。我們感謝作者發布他們的程式碼。