„Löschen unerwünschter Konzepte in Diffusionsmodellen mit kontradiktorischer Erhaltung“ (NeurIPS 2024).
[? Papier] [? Projektseite] [? Poster] [Folien]
Kontakt: [email protected]
(Schamloser Stecker?) Unsere anderen Artikel zum Thema Löschen/Verlernen von Konzepten:
Fantastische Ziele für die Konzeptlöschung in Diffusionsmodellen und wo man sie findet ,
Tuan-Anh Bui, Trang Vu, Long Vuong, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung
Wird geprüft (Dropbox)
Löschen unerwünschter Konzepte in Diffusionsmodellen mit Adversarial Preservation ,
Tuan-Anh Bui, Long Vuong, Khanh Doan, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung
NeurIPS 2024 (arXiv 2410.15618)
Entfernen unerwünschter Konzepte in generativen Text-zu-Bild-Modellen mit lernbaren Eingabeaufforderungen ,
Tuan-Anh Bui, Khanh Doan, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung
Vorabdruck (arXiv 2403.12326)
Diffusionsmodelle zeichnen sich durch die Generierung visuell ansprechender Inhalte aus Text aus, können jedoch unbeabsichtigt unerwünschte oder schädliche Inhalte erzeugen, wenn sie mit ungefilterten Internetdaten trainiert werden. Eine praktische Lösung besteht darin, Zielkonzepte selektiv aus dem Modell zu entfernen. Dies kann sich jedoch auf die verbleibenden Konzepte auswirken. Frühere Ansätze haben versucht, dies auszugleichen, indem sie einen Verlustterm zur Erhaltung des neutralen Inhalts oder einen Regularisierungsterm zur Minimierung von Änderungen in den Modellparametern eingeführt haben, doch die Lösung dieses Kompromisses bleibt eine Herausforderung. In dieser Arbeit schlagen wir vor, Konzepte zu identifizieren und zu bewahren, die am stärksten von Parameteränderungen betroffen sind und als kontradiktorische Konzepte bezeichnet werden. Dieser Ansatz gewährleistet eine stabile Löschung mit minimalen Auswirkungen auf die anderen Konzepte. Wir demonstrieren die Wirksamkeit unserer Methode anhand des Stable Diffusion-Modells und zeigen, dass sie modernste Löschmethoden bei der Beseitigung unerwünschter Inhalte übertrifft und gleichzeitig die Integrität anderer nicht zusammenhängender Elemente beibehält.
(1) Das Löschen verschiedener Zielkonzepte aus Text-zu-Bild-Diffusionsmodellen führt zu unterschiedlichen Auswirkungen auf die verbleibenden Konzepte. Beispielsweise wirkt sich die Entfernung von „Nacktheit“ erheblich auf verwandte Konzepte wie „Frauen“ und „Männer“ aus, hat jedoch nur minimale Auswirkungen auf nicht verwandte Konzepte wie „Müllwagen“. (2) Neutrale Konzepte liegen in der Mitte des Sensitivitätsspektrums, was darauf hindeutet, dass sie die Erhaltungsfähigkeit des Modells nicht angemessen widerspiegeln. (3) Darüber hinaus hat die Wahl des Konzepts, das beim Löschen erhalten bleiben soll, erhebliche Auswirkungen auf die generative Fähigkeit des Modells. Sich auf neutrale Konzepte zu verlassen, wie in früheren Arbeiten, ist keine optimale Lösung. (4) Dies unterstreicht die Notwendigkeit adaptiver Methoden, um die sensibelsten Konzepte im Zusammenhang mit dem zu löschenden Zielkonzept zu identifizieren und zu bewahren, anstatt sich auf feste neutrale/generische Konzepte zu verlassen.
cd Adversarial-Erasing
wget https://huggingface.co/CompVis/stable-diffusion-v-1-4-original/resolve/main/sd-v1-4-full-ema.ckpt
mkdir models/erase
mv sd-v1-4-full-ema.ckpt models/erase/
wget https://huggingface.co/CompVis/stable-diffusion-v1-4/blob/main/unet/config.json
mv config.json models/erase/
Anforderungen:
pip install omegaconf
pip install pytorch-lightning==1.6.5
pip install taming-transformers-rom1504
pip install kornia==0.5.11
pip install git+https://github.com/openai/CLIP.git
pip install diffusers==0.21.4
pip install -U transformers
pip install --upgrade nudenet
pip install lpips
In den folgenden Bash-Dateien stellen wir Trainings- und Bewertungsskripte für die Experimente im Artikel bereit.
Führen Sie den folgenden Befehl aus, um die Ergebnisse in Tabelle 1 des Dokuments zu erhalten (z. B. Löschen objektbezogener Konzepte):
bash run_imagenette.sh
Führen Sie den folgenden Befehl aus, um die Ergebnisse in Tabelle 2 des Artikels zu erhalten (z. B. Konzept zum Löschen von Nacktheit):
bash run_nudity.sh
Führen Sie den folgenden Befehl aus, um die Ergebnisse in Tabelle 3 des Artikels (z. B. Erasing Artistic Concepts) zu erhalten:
bash run_artist.sh
Erstellung von Abbildung 1 und Abbildung 2 des Papiers (d. h. Analyse der Auswirkungen der Löschung des Zielkonzepts)
bash run_abl_preserve.sh
Die Liste der in der Arbeit verwendeten Eingabeaufforderungen finden Sie im data
, einschließlich:
english_3000.csv
: Liste von 3000 englischen Wörternimagenette.csv
: Liste der Imagenette-Klassen, 500 Bilder pro Klasseunsafe-prompts4703.csv
: Liste der unsicheren I2P-Eingabeaufforderungen, 4703-Eingabeaufforderungenlong_nich_art_prompts.csv
: Liste zur Generierung von Kunstwerken aus fünf Künstlernsimilarity-nudity_200.csv
zu similarity-nudity-4_200.csv
: Liste zum Generieren spezifischer Objekte, um die Auswirkungen des Löschens von Nacktheit und Müllwagenkonzepten zu untersuchenWir bieten die Implementierung unserer Methode und Grundlagen:
train_adversarial_gumbel.py
: Implementierung unserer Methodetrain_esd.py
: Implementierung von ESDtrain_uce.py
: Implementierung von UCEtrain-esd-preserve.py
: Implementierung von ESD mit Konservierung, um die Auswirkungen der Löschung von Nacktheit und Müllwagenkonzepten zu untersuchen Um Konzepte zum Löschen festzulegen, ändern Sie die Datei utils_exp.py
und das Argument --prompt
in den Bash-Dateien.
Wir stellen die Bewertungsergebnisse unserer Methode und Baselines im Ordner evaluation_folder
und den zugehörigen Notizbüchern bereit, um die Ergebnisse in der Arbeit zu reproduzieren.
Wenn Sie diese Arbeit für Ihre Forschung nützlich finden, ziehen Sie bitte in Betracht, unseren Artikel (oder unsere anderen Artikel?) zu zitieren:
@article { bui2024erasing ,
title = { Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation } ,
author = { Bui, Anh and Vuong, Long and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
booktitle = { NeurIPS } ,
year = { 2024 }
}
@article { bui2024adaptive ,
title = { Fantastic Targets for Concept Erasure in Diffusion Models and Where to Find Them } ,
author = { Bui, Anh and Vu, Trang and Vuong, Long and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { Preprint } ,
year = { 2024 }
}
@article { bui2024removing ,
title = { Removing Undesirable Concepts in Text-to-Image Generative Models with Learnable Prompts } ,
author = { Bui, Anh and Doan, Khanh and Le, Trung and Montague, Paul and Abraham, Tamas and Phung, Dinh } ,
journal = { arXiv preprint arXiv:2403.12326 } ,
year = { 2024 }
}
Dieses Repository basiert auf dem Repository Erasing Concepts from Diffusion Models