「敵対的保存による拡散モデルの望ましくない概念の消去」 (NeurIPS 2024)。
[?紙] [?プロジェクトページ] [?ポスター] [ スライド]
連絡先: [email protected]
(恥知らずなプラグ?) 概念の消去/アンラーニングに関する他の論文:
拡散モデルにおける概念消去の素晴らしいターゲットとその入手場所、
トゥアンアン ブイ、トラン ヴー、ロン ヴオン、チュン レ、ポール モンタギュー、タマス エイブラハム、ディン フン
審査中(Dropbox)
敵対的保存による拡散モデルの望ましくない概念の消去、
トゥアンアン ブイ、ロン ヴオン、カイン ドアン、チュン レ、ポール モンタギュー、タマス エイブラハム、ディン フン
NeurIPS 2024 (arXiv 2410.15618)
学習可能なプロンプトを使用してテキストから画像への生成モデル内の望ましくない概念を削除する、
トゥアン=アン・ブイ、カイン・ドアン、チュン・レー、ポール・モンタギュー、タマス・アブラハム、ディン・フン
プレプリント (arXiv 2403.12326)
拡散モデルは、テキストから視覚的に印象的なコンテンツを生成することに優れていますが、フィルタリングされていないインターネット データでトレーニングすると、望ましくない、または有害なコンテンツを誤って生成する可能性があります。実際的な解決策は、モデルからターゲットの概念を選択的に削除することですが、これは残りの概念に影響を与える可能性があります。これまでのアプローチでは、中立的な内容を維持するために損失項を導入したり、モデルパラメータの変化を最小限に抑えるために正則化項を導入したりして、このバランスをとろうとしていましたが、このトレードオフを解決するのは依然として困難です。この研究では、敵対的概念と呼ばれる、パラメーターの変更によって最も影響を受ける概念を特定し、保存することを提案します。このアプローチにより、他の概念への影響を最小限に抑えながら、安定した消去が保証されます。安定拡散モデルを使用した私たちの方法の有効性を実証し、他の無関係な要素の整合性を維持しながら不要なコンテンツを削除する点で最先端の消去方法よりも優れていることを示します。
(1)テキストから画像への拡散モデルからさまざまなターゲット概念を消去すると、残りの概念にさまざまな影響が生じます。たとえば、「ヌード」を削除すると、「女性」や「男性」などの関連する概念に大きな影響を与えますが、「ゴミ収集車」などの無関係な概念には最小限の影響しか与えません。 (2)中立的な概念は感度スペクトルの中央にあり、モデルの保存能力を適切に表していないことを示唆しています。 (3)さらに、消去中に保存する概念の選択は、モデルの生成能力に大きな影響を与えます。以前の研究のように、中立的な概念に依存することは最適な解決策ではありません。 (4)これは、固定された中立的/一般的な概念に依存するのではなく、消去されるターゲット概念に関連する最も機密性の高い概念を特定して保存するための適応的な方法の必要性を強調しています。
cd Adversarial-Erasing
wget https://huggingface.co/CompVis/stable-diffusion-v-1-4-original/resolve/main/sd-v1-4-full-ema.ckpt
mkdir models/erase
mv sd-v1-4-full-ema.ckpt models/erase/
wget https://huggingface.co/CompVis/stable-diffusion-v1-4/blob/main/unet/config.json
mv config.json models/erase/
要件:
pip install omegaconf
pip install pytorch-lightning==1.6.5
pip install taming-transformers-rom1504
pip install kornia==0.5.11
pip install git+https://github.com/openai/CLIP.git
pip install diffusers==0.21.4
pip install -U transformers
pip install --upgrade nudenet
pip install lpips
論文の実験用のトレーニングおよび評価スクリプトは、次の bash ファイルで提供されます。
この論文の表 1 の結果 (つまり、オブジェクト関連の概念の消去) を生成するには、次のコマンドを実行します。
bash run_imagenette.sh
論文の表 2 の結果 (つまり、ヌードの消去の概念) を生成するには、次のコマンドを実行します。
bash run_nudity.sh
論文の表 3 の結果 (つまり、芸術的概念の消去) を生成するには、次のコマンドを実行します。
bash run_artist.sh
論文の図 1 と図 2 を作成する(つまり、ターゲット概念を消去した場合の影響の分析)
bash run_abl_preserve.sh
この論文で使用されているプロンプトのリストは、 data
フォルダーにあります。次のものが含まれます。
english_3000.csv
: 3000 個の英単語のリストimagenette.csv
: imagenette クラスのリスト、クラスごとに 500 個の画像unsafe-prompts4703.csv
: 安全でないプロンプト I2P、4703 プロンプトのリストlong_nich_art_prompts.csv
: 5 人のアーティストからアートを生成するリストsimilarity-nudity_200.csv
からsimilarity-nudity-4_200.csv
: ヌードとゴミ収集車の概念を消去することの影響を研究するために特定のオブジェクトを生成するためのリスト私たちはメソッドとベースラインの実装を提供します。
train_adversarial_gumbel.py
: メソッドの実装train_esd.py
: ESDの実装train_uce.py
: UCEの実装train-esd-preserve.py
: ヌードとゴミ収集車の概念を消去することの影響を研究するための保存を伴う ESD の実装概念を消去するように設定するには、 utils_exp.py
ファイルを変更し、bash ファイルの引数--prompt
を変更します。
メソッドの評価結果とベースラインを、 evaluation_folder
フォルダーと関連するノートブックに提供して、論文で結果を再現します。
この研究があなたの研究に役立つと思われる場合は、私たちの論文 (または他の論文?) を引用することを検討してください。
@article { bui2024erasing ,
title = { Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation } ,
author = { Bui, Anh and Vuong, Long and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
booktitle = { NeurIPS } ,
year = { 2024 }
}
@article { bui2024adaptive ,
title = { Fantastic Targets for Concept Erasure in Diffusion Models and Where to Find Them } ,
author = { Bui, Anh and Vu, Trang and Vuong, Long and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { Preprint } ,
year = { 2024 }
}
@article { bui2024removing ,
title = { Removing Undesirable Concepts in Text-to-Image Generative Models with Learnable Prompts } ,
author = { Bui, Anh and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { arXiv preprint arXiv:2403.12326 } ,
year = { 2024 }
}
このリポジトリは、「拡散モデルから概念を消去する」リポジトリに基づいています。