コーシク・スリヴァツァン・ファハド・シャムシャド・ムザンマル・ナシール・カルティク・ナンダクマール
モハメド・ビン・ザイード人工知能大学(MBZUAI)、アラブ首長国連邦。
大規模なテキストから画像への生成 (T2IG) モデルの急速な普及により、有害なコンテンツの生成における悪用の可能性についての懸念が生じています。 T2IG モデルから望ましくない概念を消去するための多くの方法が提案されていますが、最近の研究では、概念消去モデル (CEM) が敵対的攻撃によって簡単にだまされて消去された概念を生成できることが実証されているため、誤った安心感を与えるだけです。モデルの有用性 (無害な概念を生成する能力) を大幅に低下させることなく、敵対的に堅牢な概念を消去するという問題は、特に敵対者が CEM にアクセスできるホワイト ボックス設定においては未解決の課題のままです。このギャップに対処するために、2 つの異なる段階を含むSTEREOと呼ばれるアプローチを提案します。第 1 段階では、敵対的トレーニングからの堅牢な最適化原理を活用して、CEM から消去された概念を再生成できる強力で多様な敵対的プロンプトを十分に探索( STE ) します。 2 番目の確実な消去( REO ) ステージでは、モデルの有用性の低下を最小限に抑えながら、ターゲットの概念を一度に堅牢に消去するためのアンカー概念ベースの構成目標を導入します。提案されたSTEREOアプローチを、3 つの敵対的攻撃の下で 4 つの最先端の概念消去方法に対してベンチマークすることにより、より優れた堅牢性とユーティリティのトレードオフを達成する能力を実証します。
テキストから画像への生成のための大規模な拡散モデルは、敵対的な攻撃の影響を受けやすく、消去の努力にもかかわらず、有害な概念を再生成する可能性があります。ここでは、無害なコンテンツを生成するモデルの機能を維持しながら、この再生成を防ぐように設計された堅牢なアプローチであるSTEREOを紹介します。
ステレオの概要。我々は、無害な概念の有用性に大きな影響を与えることなく、事前訓練されたテキストから画像への生成モデルから敵対的に堅牢な概念を消去するための新しい 2 段階フレームワークを提案します。
ステージ 1 (上) : Search Toothly Enough (STE) は、敵対的トレーニングの堅牢な最適化フレームワークに従い、概念の消去を最小-最大最適化問題として定式化し、消去されたモデルからターゲットの概念を再生成できる強力な敵対的プロンプトを発見します。私たちのアプローチの核となる新しさは、最終的な解決策としてではなく、強力な敵対的プロンプトを十分に徹底的に検索するための中間ステップとしてのみ AT を採用しているという事実にあります。
ステージ 2 (下) : 確実に消去すると、アンカー コンセプトと、構成目標を介してステージ 1 からの強力な敵対的プロンプトのセットを使用してモデルを微調整し、ターゲット コンセプトを堅牢に消去しながら、無害なコンセプトの高忠実度の生成を維持します。
私たちの研究とこのリポジトリが役立つと思われる場合は、私たちのリポジトリに星を付け、次のように論文を引用することを検討してください。
@article { srivatsan2024stereo ,
title = { STEREO: Towards Adversarially Robust Concept Erasing from Text-to-Image Generation Models } ,
author = { Srivatsan, Koushik and Shamshad, Fahad and Naseer, Muzammal and Nandakumar, Karthik } ,
journal = { arXiv preprint arXiv:2408.16807 } ,
year = { 2024 }
}
ご質問がある場合は、このリポジトリで問題を作成するか、[email protected] までご連絡ください。
私たちのコードは ESD リポジトリ上に構築されています。コードを公開してくださった作者に感謝します。